본문 바로가기

빅데이터 in r

[R] 튜토리얼 02-1. (수집) 셀레니움 Selenium을 이용한 자동 웹 크롤링하는 방법 0. 자바 설치하기cmd 창에서 java -version  또는 javac 라고 명령어를 입력하고 쳐서 제대로 잘 깔렸는지 확인한다.에러가 난다면 환경변수편집으로 path를 지정해준다.1. 설치하기C:\r_selenium으로 폴더를 만든다 1) selenium 다운받기. (ver. 3.11.0) -> jar 압축파일을 r_selenium에 압출파일 풀지 않고 저장.>>> https://www.seleniumhq.org/download/에서 바로 다운또는 http://selenium-release.storage.googleapis.com/index.html 링크에 접속하면 다운로드할 수 있는 3.11버전 말고도  4.0 등 여러 버전들이 있음  2) geckodriver 다운받기. (ver. 0.17.0).. 더보기
xml 호출 (창고(DB)는 알 필요 없고 주문. 이거 이거 주세요) 오른쪽 위 공공데이터 개방 클릭 -> open api 호출 인증키 발급 api 기술문서 받고 csv로 저장(깔끔) 이 전체 과정을. url호출부터 xml응답, 그리고 데이터프레임으로 저장까지 . R내에서 다 할 수 있다. httr라이브러리가 있으면. 아래 영상에서 r에서 하는걸 볼 수 있다. * 알고 가는 키워드 RESTful 웹 서비스 R에 httr 라이브러리 설명 드렸던 ‘호출 -> xml’ 단계는 밑에 블로그에 마지막 영상 6분 전까지만 살짝 보시면 정리 되실꺼에요. blog.naver.com/wsdcaptain/221967220087 R언어를 이용한 웹 크롤링(카카오 Json , 네이버 XML) 및 정제 후 파일 입출력까지 안녕하세요. 언제나 휴일에 언휴입니다.R언어로 데이터 분석을 많이 하는 것.. 더보기
Open API 데이터 수집, XML 데이터 추출 in R 공공데이터포털 사이트에서 공공데이터를 모두 개방하고 있습니다. 국민권익위원회_민원빅데이터_분석정보 라는 이름의 Open API (XML) 데이터를 활용신청 합니다. (국민신문고 등 각급 기관의 민원 창구를 통해 신청되는 민원 빅데이터를 분석한 정보) 신청 허가까지 1~2시간 정도 걸립니다. 받은 데이터 중 샘플데이터를 가지고 r에서 불러오고 데이터 추출 방법을 확인해봅시다 | XML 정의 - XML은 데이터를 저장하거나 전송하기 위한 도구, 마크업 언어입니다. - 데이터를 구조화하여 다른 프로그래밍 언어간에 전송할 때나 혹은 open API에서 데이터를 얻을 때 json 이나 xml 형태로 얻는 경우가 많습니다. - 기본적으로 데이터를 저장하는 수단일 뿐이기 때문에 그리 어렵게 정의된 언어는 아니지요. .. 더보기