티스토리 뷰
Feature Selection은 데이터 Feature들 중에서 필요한 피쳐를 선택하는 분석 방법론입니다.
Feature Selection의 3개의 방법론에 대해서 알아보겠습니다.
1. Filtering
- 필터링 기법 내에 3개의 방법으로 진행이 가능
- 필터링 기법은 단어의 뜻 그대로 데이터의 중요도가 높은 변수들을 선택하는 방법
1A. T-Test
- 두 집단간 평균을 비교하는 통계분석 기법 (연속형 변수)
1B. Chi-squared test
- 두 집단간 평균을 비교하는 통계분석 기법 (범주형 변수)
1C. Impurity (Gini-impurity, Information Gain)
- 데이터의 불순도를 판단해주는 분석 기법
- 간단히 말하면, 데이터 내 어떠한 피쳐가 데이터를 얼마나 잘 분류해주는 수식을 통해 수치로 표현해서 판단하는 분석 방법이다.
- 종속 변수가 시험성적이고 독립 변수가 공부 시간이라고 가정을 했을 시, 공부를 많이 할 수록 시험 성적이 더 높게 나올것이기 때문에 공부 시간은 순도가 높은 좋은 피쳐이다. 종속 변수가 시험성적이고 독립 변수가 100m 달리기 기록이라고 가정을 하면, 두 변수의 관계가 없으므로 100m 달리기 기록 피쳐는 순도가 낮은 (불순도가 높은) 피쳐이다.
- 이런식으로 순도가 높은 피쳐를 찾는 분석 기법을 Impurity라고 합니다.
2. Wrapper
- Wrapper 기법은 총 4가지 알고리즘으로 진행이 가능
- Wrapper은 매우 기본적인 방법론으로 반복작업을 통해서 모델의 정확도를 향상시키는 방법론이다.
2A. Forward Greedy
- 선택된 feature가 없는 상태에서 시작
- feature를 하나씩 넣으면서 모델의 정확도를 일정수준 향상시키면 해당 feature를 분석모델에 추가
- feature 갯수와 정확도가 일정 수준에 도달할때까지 반복 작업
2B. Backward Greedy
- 모든 feature들을 넣은 상태에서 시작
- 각 feature들을 제거한 상태에서 모델의 정확도를 산출 후 정확도를 가장 작은 폭으로 떨어트리는 feature들을 순차적으로 제거 (정확도 향상에 적은 영향을 주는 feature들을 먼저 제거)
- feature 갯수와 정확도가 일정 수준에 도달할때까지 반복 작업
2C. Genetic Search
- 유전학에서 비롯된 알고리즘으로 랜덤하게 몇개의 데이터의 포인트를 선정 후 좋은 결과들끼리 결합 혹은 더 나은 방법으로 데이터를 변경하면서 모델의 성능을 향상시키는 방법론
2D. Local Search
- 한 점에서 시작해서 이웃점들과 비교 후 결과가 가장 좋은 곳으로 변경하는 과정을 반복하는 방법론
3. Embedded Methods
- Embedded Methods는 총 2가지의 방식이 존재합니다.
- RIDGE와 LASSO 회귀분석은 모델의 복잡도를 낮춰주고 과적합을 방지해주는 정규화 방법론
- LASSO와 RIDGE 분석기법을 통해 모델의 성능을 향상시키는 Multicollinearity와 Shrinkage 방법을 적용
- Multicollinearity: 독립변수간 높은 상관관계를 가진 변수들
- Shrinkage: 변수의 계수에 정규화를 적용해서 0에 가깝게 계수를 감소시키고 분산을 감소시켜 모델을 개선
3A. LASSO = L1 Regularisation
장점
- 이상치에 대해 영향을 적게 받는다.
단점
- 계산이 힘들다.
- 복잡한 패턴을 학습할 수 없다.
3B. RIDGE regression = L2 Regularisation (제곱)
장점
- 계산이 용이하다.
- 복잡한 패턴을 학습할 수 있다.
단점
- 이상치 데이터에 영향을 많이 받는다.
'데이터분석 이론' 카테고리의 다른 글
Classification 기법 - 최근접 이웃 (KNN) (0) | 2019.05.19 |
---|---|
통계 데이터의 종류와 수집 방법 (0) | 2019.05.19 |
Feature Extraction (PCA & LDA) (0) | 2019.05.18 |
차원의 저주 (Curse of Dimensionality) (2) | 2019.05.18 |
컴퓨터 인식 (Computer Vision) 기본 (0) | 2019.05.16 |
- Total
- Today
- Yesterday
- 표본 추출
- recommendationsystem
- 데이터분석 척도
- 대응표본 검정
- 통계 척도
- 국어정보처리시스템경진대회2020
- kaggle
- 딥러닝추천시스템
- denserepresentation
- 딥러닝추천모델
- 국립국어원대회
- 빅데이터공모전
- 데이터분석공모전
- 일표본 검정
- 추천시스템논문
- 자연어처리공모전
- 데이터분석
- instantgratification
- 독립표본 t 검정
- 주식종목예측시나리오
- featureextraction
- significant level
- kaggle competition
- 캐글
- 통계 분류 검증
- featureselection
- wordembedding
- 텍스트분석
- 분류 모델 성능 평가지표
- 비전공자데이터분석
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |