티스토리 뷰
Feature Extraction은 데이터의 피쳐의 갯수를 효과적으로 줄여주는 분석 기법입니다.
많은 방법이 있지만 그 중 가장 보편적으로 사용되는 PCA와 LDA에 대해 알아보겠습니다.
두 요인은 기본적으로 차원을 축소해주는 분석 기법이다.
PCA (Principal Component Analysis) (주성분분석)는 데이터들의 분산이 가장 극대화가 되는 선을 찾는 차원축소 방법
(아이겐벡터를 사용해서 공분산이 가장 높은 선을 찾는 기법)
LDA (Linear Discriminant Analysis) (주요인분석)는 데이터의 클래스를 가장 잘 나눠주는 선을 찾는 차원축소 방법
PCA은 데이터의 변화를 가장 잘 나타내주는 선을 찾아주고 LDA는 데이터들을 가장 잘 나눠줄 수 있는 선을 찾아주는 방식으로 데이터의 속성에 따라 각자 다른 결과를 산출한다.
보편적으로 분류기법에서는 LDA가 가장 많이 사용되지만 PCA와 LDA 중 더 좋다고 얘기할 수 있는 방법론은 없습니다.
분석을 할 시에 두 방법론을 다 적용해보고 더 좋은 정확도를 내는 분석기법을 사용하는 것을 추천드립니다.
'데이터분석 이론' 카테고리의 다른 글
통계 데이터의 종류와 수집 방법 (0) | 2019.05.19 |
---|---|
Feature Selection (Filtering, Wrapper, Embedded Methods) (0) | 2019.05.18 |
차원의 저주 (Curse of Dimensionality) (2) | 2019.05.18 |
컴퓨터 인식 (Computer Vision) 기본 (0) | 2019.05.16 |
머신러닝을 이용한 판매수요 예측분석 (0) | 2019.03.11 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 데이터분석
- 데이터분석공모전
- 통계 척도
- 빅데이터공모전
- 독립표본 t 검정
- 데이터분석 척도
- 표본 추출
- 비전공자데이터분석
- 캐글
- 일표본 검정
- 자연어처리공모전
- recommendationsystem
- 텍스트분석
- 대응표본 검정
- 주식종목예측시나리오
- kaggle competition
- 통계 분류 검증
- 국어정보처리시스템경진대회2020
- 딥러닝추천시스템
- significant level
- instantgratification
- kaggle
- featureextraction
- 딥러닝추천모델
- 추천시스템논문
- 국립국어원대회
- 분류 모델 성능 평가지표
- denserepresentation
- wordembedding
- featureselection
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함