본문 바로가기

빅데이터 in r

[R] 튜토리얼 02. (수집) 셀레니움 Selenium을 이용한 자동 웹 크롤링하는 방법

 

 

0. 자바 설치하기

cmd 창에서 java -version  또는 javac 라고 명령어를 입력하고 쳐서 제대로 잘 깔렸는지 확인한다.

에러가 난다면 환경변수편집으로 path를 지정해준다.

1. 설치하기

C:\r_selenium으로 폴더를 만든다

 

1) selenium 다운받기. (ver. 3.11.0) -> jar 압축파일을 r_selenium에 압출파일 풀지 않고 저장.

>>> https://www.seleniumhq.org/download/

에서 바로 다운

또는 http://selenium-release.storage.googleapis.com/index.html 링크에 접속하면 다운로드할 수 있는 3.11버전 말고도  4.0 등 여러 버전들이 있음

 

 

2) geckodriver 다운받기. (ver. 0.17.0)    -> 압축파일을 r_selenium에 압출파일을 풉니다.

>>> https://sites.google.com/a/chromium.org/chromedriver/

> 운영체제에 맞게 window로 깔음

(또는 참고 https://github.com/mozilla/geckodriver/releases/tag/v0.17.0 )

 

3) chromeDriver 다운받기(ver.2.37)  -> 압축파일을 r_selenium에 압출파일을 풉니다.

>>> https://sites.google.com/a/chromium.org/chromedriver/downloads

에 접속합니다 > Latest stable release:ChromeDriver80.0.3987.16 을 클릭해서 다운

출처: https://sancj.tistory.com/62 [뚝딱뚝딱, 꿈 실현소]

 

 

여기까지 다운을 받은 후 C:\r_selenium에  폴더를 만든 곳에 세 파일을 위치시킨 모양은 아래와 같다. 

이렇게 두 파일은 압축을 풀어줬고, 하나는 압축된 상태로 옮겼다.

 

4) cmd 관리자 모드를 실행한 후 cmd 콘솔창에 cd C:\r_selenium를 입력한다.

  그리고  java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.11.0.jar -port 4445를 입력한다.

 

2. 웹크롤링하기

1) cmd창은 내려놓고, Rstudio로 돌아가 코드를 돌리자

 

         library(RSelenium)

         library(rvest)

R 코드는 이렇다. 간단하쥬?

 

크롬창에서 네이버 홈페이지의 뉴스로 들어갔다. F12 키를 누르면 HTML 코드 창이 뜬다.

 

해당 틀 class로 따라 들어가고 오른쪽마우스클릭 > Copy > Copy XPath 클릭하면 value값이 복사된다.

그것을 value = ~~ 값에 넣어주면 된다.

 

화면

 

++이 외에도 클릭 이벤트나 크롬 뒤로가기 등 여러 기능들의 함수들이 있는데, 이에 대한 것은 아래 링크를 참고해주세요

http://estatidados.com.br/using-rselenium-for-task-automation-and-web-scraping/

 

Using RSelenium for task automation and web scraping - Estatidados

1. Introduction This article aims to present the RSelenium package’s basic functionalities and show how it can help you to perform many useful daily tasks automatically in your internet browser. RSelenium also offers a great opportunity to observe object

estatidados.com.br