티스토리 뷰

데이터분석 이론

Feature Extraction (PCA & LDA)

데이터사이엔티스트 2019. 5. 18. 14:40

Feature Extraction은 데이터의 피쳐의 갯수를 효과적으로 줄여주는 분석 기법입니다.

많은 방법이 있지만 그 중 가장 보편적으로 사용되는 PCA와 LDA에 대해 알아보겠습니다.

 

 

두 요인은 기본적으로 차원을 축소해주는 분석 기법이다.

PCA (Principal Component Analysis) (주성분분석)는 데이터들의 분산이 가장 극대화가 되는 선을 찾는 차원축소 방법

(아이겐벡터를 사용해서 공분산이 가장 높은 선을 찾는 기법)

LDA (Linear Discriminant Analysis) (주요인분석)는 데이터의 클래스를 가장 잘 나눠주는 선을 찾는 차원축소 방법

 

PCA은 데이터의 변화를 가장 잘 나타내주는 선을 찾아주고 LDA는 데이터들을 가장 잘 나눠줄 수 있는 선을 찾아주는 방식으로 데이터의 속성에 따라 각자 다른 결과를 산출한다.

 

보편적으로 분류기법에서는 LDA가 가장 많이 사용되지만 PCA와 LDA 중 더 좋다고 얘기할 수 있는 방법론은 없습니다.

분석을 할 시에 두 방법론을 다 적용해보고 더 좋은 정확도를 내는 분석기법을 사용하는 것을 추천드립니다.