텍스트분석

1. 파이썬 웹크롤링 with Selenium, Chrome

데이터사이엔티스트 2019. 9. 16. 23:01

출처: https://baek2sm.blog.me/221376506043

 

파이썬 웹 크롤링 [1편] with Selenium, Chrome

이번에는 Selenium 라이브러리를 이용한 웹 크롤링을 다뤄보겠습니다.우리는 크롬(Chrome) 브라우저를 이...

blog.naver.com

웹크롤링은 상단 홍승백님 페이지를 참고해서 작성했습니다. (개인 소장용)

 

웹 크롤링은 웹사이트에 있는 정보와 데이터를 가지고 오는 기술입니다.

일부 접근 불가능한 사이트가 있어 모든 데이터와 정보를 가져올 수는 없습니다.

 

웹 크롤링 Step

1. Chrome Web Driver 설치 (http://chromedriver.chromium.org/downloads)

chrome://settings/help 들어가셔서 크롬 버전을 확인한 후 크롬 버전과 동일한 웹드라이버 설치

 

2. 파이썬 패키지 Selenium을 설치

- pip install selenium

 

3. 파이썬 내에서 코드 작성

 

## A. 셀레니움 패키지 내 웹드라이버 기능 호출

from selenium import webdriver

 

## B. 크롬 드라이버 호출 (새로운 크롬 창 생성)

driver = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')

 

## C. Wikipedia 페이지 웹 크롤링 하기

driver.get('https://ko.wikipedia.org/wiki/')

 

# 1. F12를 눌러서 웹 요소를 확인할 수 있는 Elements 창 호출

# 2. Ctrl + Shift + C 버튼을 누른 후 원하는 텍스트 혹은 데이터 위에 마우스 커서 이동 (이동 후 우측 마우스 버튼 클릭)

# 3. Elements 창 내에 해당 텍스트 우측 버튼 클릭 후 Copy -> Copy Selector 실행 (클립보드에 하단 문구 복사됨)

# #mp_header > table > tbody > tr > td:nth-child(1) > div:nth-child(2) > a:nth-child(4) > b

 

##  D. selected 변수 내 해당 텍스트 정보 저장

selected = driver.find_element_by_css_selector('#mp_header > table > tbody > tr > td:nth-child(1) > div:nth-child(2) > a:nth-child(4) > b')