0. 자바 설치하기
cmd 창에서 java -version 또는 javac 라고 명령어를 입력하고 쳐서 제대로 잘 깔렸는지 확인한다.
에러가 난다면 환경변수편집으로 path를 지정해준다.
1. 설치하기
C:\r_selenium으로 폴더를 만든다
1) selenium 다운받기. (ver. 3.11.0) -> jar 압축파일을 r_selenium에 압출파일 풀지 않고 저장.
>>> https://www.seleniumhq.org/download/
에서 바로 다운
또는 http://selenium-release.storage.googleapis.com/index.html 링크에 접속하면 다운로드할 수 있는 3.11버전 말고도 4.0 등 여러 버전들이 있음
2) geckodriver 다운받기. (ver. 0.17.0) -> 압축파일을 r_selenium에 압출파일을 풉니다.
>>> https://sites.google.com/a/chromium.org/chromedriver/
> 운영체제에 맞게 window로 깔음
(또는 참고 https://github.com/mozilla/geckodriver/releases/tag/v0.17.0 )
3) chromeDriver 다운받기(ver.2.37) -> 압축파일을 r_selenium에 압출파일을 풉니다.
>>> https://sites.google.com/a/chromium.org/chromedriver/downloads
에 접속합니다 > Latest stable release:ChromeDriver80.0.3987.16 을 클릭해서 다운
출처: https://sancj.tistory.com/62 [뚝딱뚝딱, 꿈 실현소]
여기까지 다운을 받은 후 C:\r_selenium에 폴더를 만든 곳에 세 파일을 위치시킨 모양은 아래와 같다.
4) cmd 관리자 모드를 실행한 후 cmd 콘솔창에 cd C:\r_selenium를 입력한다.
그리고 java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.11.0.jar -port 4445를 입력한다.
2. 웹크롤링하기
1) cmd창은 내려놓고, Rstudio로 돌아가 코드를 돌리자
library(RSelenium)
library(rvest)
크롬창에서 네이버 홈페이지의 뉴스로 들어갔다. F12 키를 누르면 HTML 코드 창이 뜬다.
해당 틀 class로 따라 들어가고 오른쪽마우스클릭 > Copy > Copy XPath 클릭하면 value값이 복사된다.
그것을 value = ~~ 값에 넣어주면 된다.
++이 외에도 클릭 이벤트나 크롬 뒤로가기 등 여러 기능들의 함수들이 있는데, 이에 대한 것은 아래 링크를 참고해주세요
http://estatidados.com.br/using-rselenium-for-task-automation-and-web-scraping/
'빅데이터 in r' 카테고리의 다른 글
[R] 튜토리얼 02-2. 크롤러 개발 : 복지로 홈페이지의 텍스트 글을 긁어오자 (0) | 2024.10.24 |
---|---|
[R] 튜토리얼 01. R 프로젝트 시작하기 (0) | 2022.04.05 |
[R] 튜토리얼 01. R Global Options에서 기본 설정 변경해서 분석 환경 최적화하기 (0) | 2022.04.05 |
[R] 튜토리얼 01. R 설치하기 - 텍스트마이닝 분석 환경 셋팅하기 (0) | 2022.04.05 |
[R] 튜토리얼 02-2. (수집) selenium 크롬 드라이버 버전 문제 해결 : This version of ChromeDriver only supports Chrome version 100 (0) | 2022.03.31 |