1. 파이썬 웹크롤링 with Selenium, Chrome
출처: https://baek2sm.blog.me/221376506043
파이썬 웹 크롤링 [1편] with Selenium, Chrome
이번에는 Selenium 라이브러리를 이용한 웹 크롤링을 다뤄보겠습니다.우리는 크롬(Chrome) 브라우저를 이...
blog.naver.com
웹크롤링은 상단 홍승백님 페이지를 참고해서 작성했습니다. (개인 소장용)
웹 크롤링은 웹사이트에 있는 정보와 데이터를 가지고 오는 기술입니다.
일부 접근 불가능한 사이트가 있어 모든 데이터와 정보를 가져올 수는 없습니다.
웹 크롤링 Step
1. Chrome Web Driver 설치 (http://chromedriver.chromium.org/downloads)
- chrome://settings/help 들어가셔서 크롬 버전을 확인한 후 크롬 버전과 동일한 웹드라이버 설치
2. 파이썬 패키지 Selenium을 설치
- pip install selenium
3. 파이썬 내에서 코드 작성
## A. 셀레니움 패키지 내 웹드라이버 기능 호출
from selenium import webdriver
## B. 크롬 드라이버 호출 (새로운 크롬 창 생성)
driver = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')
## C. Wikipedia 페이지 웹 크롤링 하기
driver.get('https://ko.wikipedia.org/wiki/')
# 1. F12를 눌러서 웹 요소를 확인할 수 있는 Elements 창 호출
# 2. Ctrl + Shift + C 버튼을 누른 후 원하는 텍스트 혹은 데이터 위에 마우스 커서 이동 (이동 후 우측 마우스 버튼 클릭)
# 3. Elements 창 내에 해당 텍스트 우측 버튼 클릭 후 Copy -> Copy Selector 실행 (클립보드에 하단 문구 복사됨)
# #mp_header > table > tbody > tr > td:nth-child(1) > div:nth-child(2) > a:nth-child(4) > b
## D. selected 변수 내 해당 텍스트 정보 저장
selected = driver.find_element_by_css_selector('#mp_header > table > tbody > tr > td:nth-child(1) > div:nth-child(2) > a:nth-child(4) > b')