데이터분석 이론

Text Analysis - Bag of Words, TF-IDF

데이터사이엔티스트 2019. 6. 15. 14:00

텍스트 분석의 중요한 단어들에 대해 알아보겠습니다.

 

Bag of Words

- Vector Space Model

- 문서 내에 단어들을 벡터로 변환하는 작업

- 해당 단어들의 frequency (빈도)를 count해서 테이블로 변환

 

TF-IDF

- T (Term) F (Frequency) - I (Inverse) D (Document) F (Frequency)

- TF는 문서 내 단어들의 빈도 

- DF는 해당 단어가 몇 개의 문서에서 나오는지 빈도 측정

- IDF는 단어가 몇 개의 문서에서 나오지 않는지 빈도를 측정한다는 뜻으로 해당 단어가 희소성이 높을수록 값이 높게 나온다.

 

예시)

- 문서 d1는 100개의 단어를 포함하고 있으며 사과는 문서 d1 내에 10번 언급되고 오렌지는 문서 d 내에서 20번 언급

- 전체 문서는 총 20개이고 사과는 문서 d에서만 언급되고 오렌지란 단어는 전체 20개 문서에서 언급

 

tf-idf(apple, d1) = 10 * log2(20/1) = 43.22

tf-idf(orange, d1) = 20 * log2(20/20) = 0