
단어와 벡터를 연관 짓는 방법은 크게 두가지가 있다 1. 단어 임베딩 (Word Embedding) 2. 원-핫 단어 벡터 단어 임베딩이란? 단어 임베딩은 단어를 수치화하는 방법이다. 보통 인덱스 넘버를 할당하는 Bag of Words 방법을 많이 쓴다. "I" : 0 "am": 1 "a": 2 "boy": 3 "girl": 4 I am a girl 이란 문장은 다음과 같은 벡터로 생성한다. [1 1 1 0 1] 단어 임베딩은 단어를 인덱스로 표현하는게 아니라 실수 벡터로 표현한다. 2차원 임베딩을 예시로 들어보겠다. "I" : (0.3, 0.2) "am": (0.1, 0.8) "a": (0.5, 0.6) "boy": (0.2, 0.9) "girl": (0.4, 0.7) 출처: https://dreamg..
출처: https://baek2sm.blog.me/221376506043 파이썬 웹 크롤링 [1편] with Selenium, Chrome 이번에는 Selenium 라이브러리를 이용한 웹 크롤링을 다뤄보겠습니다.우리는 크롬(Chrome) 브라우저를 이... blog.naver.com 웹크롤링은 상단 홍승백님 페이지를 참고해서 작성했습니다. (개인 소장용) 웹 크롤링은 웹사이트에 있는 정보와 데이터를 가지고 오는 기술입니다. 일부 접근 불가능한 사이트가 있어 모든 데이터와 정보를 가져올 수는 없습니다. 웹 크롤링 Step 1. Chrome Web Driver 설치 (http://chromedriver.chromium.org/downloads) - chrome://settings/help 들어가셔서 크롬 버..
텍스트 분석의 중요한 단어들에 대해 알아보겠습니다. Bag of Words - Vector Space Model - 문서 내에 단어들을 벡터로 변환하는 작업 - 해당 단어들의 frequency (빈도)를 count해서 테이블로 변환 TF-IDF - T (Term) F (Frequency) - I (Inverse) D (Document) F (Frequency) - TF는 문서 내 단어들의 빈도 - DF는 해당 단어가 몇 개의 문서에서 나오는지 빈도 측정 - IDF는 단어가 몇 개의 문서에서 나오지 않는지 빈도를 측정한다는 뜻으로 해당 단어가 희소성이 높을수록 값이 높게 나온다. 예시) - 문서 d1는 100개의 단어를 포함하고 있으며 사과는 문서 d1 내에 10번 언급되고 오렌지는 문서 d 내에서 20번..
- Total
- Today
- Yesterday
- 데이터분석
- recommendationsystem
- 국어정보처리시스템경진대회2020
- 통계 척도
- 표본 추출
- 딥러닝추천모델
- 주식종목예측시나리오
- 자연어처리공모전
- kaggle
- 딥러닝추천시스템
- instantgratification
- featureselection
- 분류 모델 성능 평가지표
- 대응표본 검정
- significant level
- 국립국어원대회
- 데이터분석 척도
- 독립표본 t 검정
- 빅데이터공모전
- 일표본 검정
- 비전공자데이터분석
- 추천시스템논문
- kaggle competition
- featureextraction
- 캐글
- 텍스트분석
- 데이터분석공모전
- wordembedding
- 통계 분류 검증
- denserepresentation
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |