텍스트분석

Topic Modeling - 2. LSA & LDA

데이터사이엔티스트 2021. 4. 13. 17:39

 

토픽 모델링의 접근 방법

- 각 문서들은 토픽의 확률 분포를 가지고 있다.

- 각 토픽들은 단어들의 확률 분포를 가지고 있다.

 

pLSA는 probabilistic latent semantic analysis의 약자로,

학습을 통해 document -> topic / topic -> terms 순서로 계속해서 업데이트를 해나가는 방법론

 

 

- 밖 네모: Corpus (문서별 반복) / 안 네모: 개별적인 문서들 (문서 내 단어별 반복)

- P(wIz) -> 어떤 토픽이 주어지면, 토픽 내에 단어는 모든 문서에 동일하게 적용된다 (문서가 바뀐다고 달라지지 않는다)

- P(zId) -> 각 문서에 대해서 토픽의 비중은 바뀔 수 있음

 

Iteration이 반복되면서 토픽의 비중, 문서 내 토픽 비중, 토픽 내 단어의 비중을 계속해서 업데이트가 된다.

 

pLSA의 성능은 기존 LSA와 비교 시, 15-45% 가량 더 높은 성능을 보이고 있음

알파, 베타는 파라미터 -> 사용자가 모델 내에서 설정할 수 있음

세타(문서)는 문서 내 토픽의 비중

파이(케이)는 각 토픽 내 단어의 비중

z는 d번째 문서 -> n번째 단어는 어느 토픽에서 추출되었는지

w는 관측하고 있는 단어 (d번째 문서에서 n번째 단어는 무엇인가)

 

 

베타 분포는 이항분포 (binomial)의 분포의 분포를 나타내고 있으며,

디리클레 분포는 베타 분포의 다항분포 버전이다.

 

 

 

 

각 단어를 하나씩 iteration 반복하면서 주변 단어들의 변화를 통해 계속해서 topic들을 업데이트