1. 파이썬 웹크롤링 with Selenium, Chrome

텍스트분석

데이터사이엔티스트 2019. 9. 16. 23:01

파이썬 웹 크롤링 [1편] with Selenium, Chrome

이번에는 Selenium 라이브러리를 이용한 웹 크롤링을 다뤄보겠습니다.우리는 크롬(Chrome) 브라우저를 이...

blog.naver.com

웹크롤링은 상단 홍승백님 페이지를 참고해서 작성했습니다. (개인 소장용)

웹 크롤링은 웹사이트에 있는 정보와 데이터를 가지고 오는 기술입니다.

일부 접근 불가능한 사이트가 있어 모든 데이터와 정보를 가져올 수는 없습니다.

- chrome://settings/help 들어가셔서 크롬 버전을 확인한 후 크롬 버전과 동일한 웹드라이버 설치

- pip install selenium

## A. 셀레니움 패키지 내 웹드라이버 기능 호출

from selenium import webdriver

## B. 크롬 드라이버 호출 (새로운 크롬 창 생성)

## C. Wikipedia 페이지 웹 크롤링 하기

driver.get('https://ko.wikipedia.org/wiki/')

# 1. F12를 눌러서 웹 요소를 확인할 수 있는 Elements 창 호출

# 2. Ctrl + Shift + C 버튼을 누른 후 원하는 텍스트 혹은 데이터 위에 마우스 커서 이동 (이동 후 우측 마우스 버튼 클릭)

# 3. Elements 창 내에 해당 텍스트 우측 버튼 클릭 후 Copy -> Copy Selector 실행 (클립보드에 하단 문구 복사됨)

# #mp_header > table > tbody > tr > td:nth-child(1) > div:nth-child(2) > a:nth-child(4) > b

## D. selected 변수 내 해당 텍스트 정보 저장

selected = driver.find_element_by_css_selector('#mp_header > table > tbody > tr > td:nth-child(1) > div:nth-child(2) > a:nth-child(4) > b')