Feature Selection (Filtering, Wrapper, Embedded Methods)
Feature Selection은 데이터 Feature들 중에서 필요한 피쳐를 선택하는 분석 방법론입니다.
Feature Selection의 3개의 방법론에 대해서 알아보겠습니다.
1. Filtering
- 필터링 기법 내에 3개의 방법으로 진행이 가능
- 필터링 기법은 단어의 뜻 그대로 데이터의 중요도가 높은 변수들을 선택하는 방법
1A. T-Test
- 두 집단간 평균을 비교하는 통계분석 기법 (연속형 변수)
1B. Chi-squared test
- 두 집단간 평균을 비교하는 통계분석 기법 (범주형 변수)
1C. Impurity (Gini-impurity, Information Gain)
- 데이터의 불순도를 판단해주는 분석 기법
- 간단히 말하면, 데이터 내 어떠한 피쳐가 데이터를 얼마나 잘 분류해주는 수식을 통해 수치로 표현해서 판단하는 분석 방법이다.
- 종속 변수가 시험성적이고 독립 변수가 공부 시간이라고 가정을 했을 시, 공부를 많이 할 수록 시험 성적이 더 높게 나올것이기 때문에 공부 시간은 순도가 높은 좋은 피쳐이다. 종속 변수가 시험성적이고 독립 변수가 100m 달리기 기록이라고 가정을 하면, 두 변수의 관계가 없으므로 100m 달리기 기록 피쳐는 순도가 낮은 (불순도가 높은) 피쳐이다.
- 이런식으로 순도가 높은 피쳐를 찾는 분석 기법을 Impurity라고 합니다.
2. Wrapper
- Wrapper 기법은 총 4가지 알고리즘으로 진행이 가능
- Wrapper은 매우 기본적인 방법론으로 반복작업을 통해서 모델의 정확도를 향상시키는 방법론이다.
2A. Forward Greedy
- 선택된 feature가 없는 상태에서 시작
- feature를 하나씩 넣으면서 모델의 정확도를 일정수준 향상시키면 해당 feature를 분석모델에 추가
- feature 갯수와 정확도가 일정 수준에 도달할때까지 반복 작업
2B. Backward Greedy
- 모든 feature들을 넣은 상태에서 시작
- 각 feature들을 제거한 상태에서 모델의 정확도를 산출 후 정확도를 가장 작은 폭으로 떨어트리는 feature들을 순차적으로 제거 (정확도 향상에 적은 영향을 주는 feature들을 먼저 제거)
- feature 갯수와 정확도가 일정 수준에 도달할때까지 반복 작업
2C. Genetic Search
- 유전학에서 비롯된 알고리즘으로 랜덤하게 몇개의 데이터의 포인트를 선정 후 좋은 결과들끼리 결합 혹은 더 나은 방법으로 데이터를 변경하면서 모델의 성능을 향상시키는 방법론
2D. Local Search
- 한 점에서 시작해서 이웃점들과 비교 후 결과가 가장 좋은 곳으로 변경하는 과정을 반복하는 방법론
3. Embedded Methods
- Embedded Methods는 총 2가지의 방식이 존재합니다.
- RIDGE와 LASSO 회귀분석은 모델의 복잡도를 낮춰주고 과적합을 방지해주는 정규화 방법론
- LASSO와 RIDGE 분석기법을 통해 모델의 성능을 향상시키는 Multicollinearity와 Shrinkage 방법을 적용
- Multicollinearity: 독립변수간 높은 상관관계를 가진 변수들
- Shrinkage: 변수의 계수에 정규화를 적용해서 0에 가깝게 계수를 감소시키고 분산을 감소시켜 모델을 개선
3A. LASSO = L1 Regularisation
장점
- 이상치에 대해 영향을 적게 받는다.
단점
- 계산이 힘들다.
- 복잡한 패턴을 학습할 수 없다.
3B. RIDGE regression = L2 Regularisation (제곱)
장점
- 계산이 용이하다.
- 복잡한 패턴을 학습할 수 있다.
단점
- 이상치 데이터에 영향을 많이 받는다.