티스토리 뷰
출처: https://baek2sm.blog.me/221376506043
파이썬 웹 크롤링 [1편] with Selenium, Chrome
이번에는 Selenium 라이브러리를 이용한 웹 크롤링을 다뤄보겠습니다.우리는 크롬(Chrome) 브라우저를 이...
blog.naver.com
웹크롤링은 상단 홍승백님 페이지를 참고해서 작성했습니다. (개인 소장용)
웹 크롤링은 웹사이트에 있는 정보와 데이터를 가지고 오는 기술입니다.
일부 접근 불가능한 사이트가 있어 모든 데이터와 정보를 가져올 수는 없습니다.
웹 크롤링 Step
1. Chrome Web Driver 설치 (http://chromedriver.chromium.org/downloads)
- chrome://settings/help 들어가셔서 크롬 버전을 확인한 후 크롬 버전과 동일한 웹드라이버 설치
2. 파이썬 패키지 Selenium을 설치
- pip install selenium
3. 파이썬 내에서 코드 작성
## A. 셀레니움 패키지 내 웹드라이버 기능 호출
from selenium import webdriver
## B. 크롬 드라이버 호출 (새로운 크롬 창 생성)
driver = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')
## C. Wikipedia 페이지 웹 크롤링 하기
driver.get('https://ko.wikipedia.org/wiki/')
# 1. F12를 눌러서 웹 요소를 확인할 수 있는 Elements 창 호출
# 2. Ctrl + Shift + C 버튼을 누른 후 원하는 텍스트 혹은 데이터 위에 마우스 커서 이동 (이동 후 우측 마우스 버튼 클릭)
# 3. Elements 창 내에 해당 텍스트 우측 버튼 클릭 후 Copy -> Copy Selector 실행 (클립보드에 하단 문구 복사됨)
# #mp_header > table > tbody > tr > td:nth-child(1) > div:nth-child(2) > a:nth-child(4) > b
## D. selected 변수 내 해당 텍스트 정보 저장
selected = driver.find_element_by_css_selector('#mp_header > table > tbody > tr > td:nth-child(1) > div:nth-child(2) > a:nth-child(4) > b')
'텍스트분석' 카테고리의 다른 글
Text Representation- Distributed Representation (NNLM- Neural Network Language Model) (0) | 2021.09.13 |
---|---|
02. Text Preprocessing (0) | 2021.09.12 |
Topic Modeling - 2. LSA & LDA (0) | 2021.04.13 |
Topic Modeling - 1. 개요 (0) | 2021.04.03 |
1. 개인 프로젝트 - 주식 가격 예측하기 (0) | 2020.08.17 |
- Total
- Today
- Yesterday
- 빅데이터공모전
- 주식종목예측시나리오
- 캐글
- 표본 추출
- 분류 모델 성능 평가지표
- featureselection
- kaggle competition
- 일표본 검정
- significant level
- featureextraction
- 추천시스템논문
- 국립국어원대회
- 독립표본 t 검정
- wordembedding
- 자연어처리공모전
- kaggle
- 비전공자데이터분석
- 텍스트분석
- recommendationsystem
- 데이터분석
- 데이터분석공모전
- 딥러닝추천모델
- 통계 분류 검증
- 국어정보처리시스템경진대회2020
- 통계 척도
- 대응표본 검정
- 딥러닝추천시스템
- instantgratification
- 데이터분석 척도
- denserepresentation
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |