'텍스트분석' 태그의 글 목록

단어와 벡터를 연관 짓는 방법은 크게 두가지가 있다 1. 단어 임베딩 (Word Embedding) 2. 원-핫 단어 벡터 단어 임베딩이란? 단어 임베딩은 단어를 수치화하는 방법이다. 보통 인덱스 넘버를 할당하는 Bag of Words 방법을 많이 쓴다. "I" : 0 "am": 1 "a": 2 "boy": 3 "girl": 4 I am a girl 이란 문장은 다음과 같은 벡터로 생성한다. [1 1 1 0 1] 단어 임베딩은 단어를 인덱스로 표현하는게 아니라 실수 벡터로 표현한다. 2차원 임베딩을 예시로 들어보겠다. "I" : (0.3, 0.2) "am": (0.1, 0.8) "a": (0.5, 0.6) "boy": (0.2, 0.9) "girl": (0.4, 0.7) 출처: https://dreamg..

카테고리 없음 2020. 8. 21. 00:17

1. 파이썬 웹크롤링 with Selenium, Chrome

출처: https://baek2sm.blog.me/221376506043 파이썬 웹 크롤링 [1편] with Selenium, Chrome 이번에는 Selenium 라이브러리를 이용한 웹 크롤링을 다뤄보겠습니다.우리는 크롬(Chrome) 브라우저를 이... blog.naver.com 웹크롤링은 상단 홍승백님 페이지를 참고해서 작성했습니다. (개인 소장용) 웹 크롤링은 웹사이트에 있는 정보와 데이터를 가지고 오는 기술입니다. 일부 접근 불가능한 사이트가 있어 모든 데이터와 정보를 가져올 수는 없습니다. 웹 크롤링 Step 1. Chrome Web Driver 설치 (http://chromedriver.chromium.org/downloads) - chrome://settings/help 들어가셔서 크롬 버..

텍스트분석 2019. 9. 16. 23:01

Text Analysis - Bag of Words, TF-IDF

텍스트 분석의 중요한 단어들에 대해 알아보겠습니다. Bag of Words - Vector Space Model - 문서 내에 단어들을 벡터로 변환하는 작업 - 해당 단어들의 frequency (빈도)를 count해서 테이블로 변환 TF-IDF - T (Term) F (Frequency) - I (Inverse) D (Document) F (Frequency) - TF는 문서 내 단어들의 빈도 - DF는 해당 단어가 몇 개의 문서에서 나오는지 빈도 측정 - IDF는 단어가 몇 개의 문서에서 나오지 않는지 빈도를 측정한다는 뜻으로 해당 단어가 희소성이 높을수록 값이 높게 나온다. 예시) - 문서 d1는 100개의 단어를 포함하고 있으며 사과는 문서 d1 내에 10번 언급되고 오렌지는 문서 d 내에서 20번..

데이터분석 이론 2019. 6. 15. 14:00

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

경영학도 Data Scientist 되자!!

티스토리툴바