Feature Selection (Filtering, Wrapper, Embedded Methods)

데이터분석 이론

Feature Selection (Filtering, Wrapper, Embedded Methods)

데이터사이엔티스트 2019. 5. 18. 15:32

Feature Selection은 데이터 Feature들 중에서 필요한 피쳐를 선택하는 분석 방법론입니다.

Feature Selection의 3개의 방법론에 대해서 알아보겠습니다.

1. Filtering

- 필터링 기법 내에 3개의 방법으로 진행이 가능

- 필터링 기법은 단어의 뜻 그대로 데이터의 중요도가 높은 변수들을 선택하는 방법

1A. T-Test

- 두 집단간 평균을 비교하는 통계분석 기법 (연속형 변수)

1B. Chi-squared test

- 두 집단간 평균을 비교하는 통계분석 기법 (범주형 변수)

1C. Impurity (Gini-impurity, Information Gain)

- 데이터의 불순도를 판단해주는 분석 기법

- 간단히 말하면, 데이터 내 어떠한 피쳐가 데이터를 얼마나 잘 분류해주는 수식을 통해 수치로 표현해서 판단하는 분석 방법이다.

- 종속 변수가 시험성적이고 독립 변수가 공부 시간이라고 가정을 했을 시, 공부를 많이 할 수록 시험 성적이 더 높게 나올것이기 때문에 공부 시간은 순도가 높은 좋은 피쳐이다. 종속 변수가 시험성적이고 독립 변수가 100m 달리기 기록이라고 가정을 하면, 두 변수의 관계가 없으므로 100m 달리기 기록 피쳐는 순도가 낮은 (불순도가 높은) 피쳐이다.

- 이런식으로 순도가 높은 피쳐를 찾는 분석 기법을 Impurity라고 합니다.

2. Wrapper

- Wrapper 기법은 총 4가지 알고리즘으로 진행이 가능

- Wrapper은 매우 기본적인 방법론으로 반복작업을 통해서 모델의 정확도를 향상시키는 방법론이다.

2A. Forward Greedy

- 선택된 feature가 없는 상태에서 시작

- feature를 하나씩 넣으면서 모델의 정확도를 일정수준 향상시키면 해당 feature를 분석모델에 추가

- feature 갯수와 정확도가 일정 수준에 도달할때까지 반복 작업

2B. Backward Greedy

- 모든 feature들을 넣은 상태에서 시작

- 각 feature들을 제거한 상태에서 모델의 정확도를 산출 후 정확도를 가장 작은 폭으로 떨어트리는 feature들을 순차적으로 제거 (정확도 향상에 적은 영향을 주는 feature들을 먼저 제거)

- feature 갯수와 정확도가 일정 수준에 도달할때까지 반복 작업

2C. Genetic Search

- 유전학에서 비롯된 알고리즘으로 랜덤하게 몇개의 데이터의 포인트를 선정 후 좋은 결과들끼리 결합 혹은 더 나은 방법으로 데이터를 변경하면서 모델의 성능을 향상시키는 방법론

2D. Local Search

- 한 점에서 시작해서 이웃점들과 비교 후 결과가 가장 좋은 곳으로 변경하는 과정을 반복하는 방법론

3. Embedded Methods

- Embedded Methods는 총 2가지의 방식이 존재합니다.

- RIDGE와 LASSO 회귀분석은 모델의 복잡도를 낮춰주고 과적합을 방지해주는 정규화 방법론

- LASSO와 RIDGE 분석기법을 통해 모델의 성능을 향상시키는 Multicollinearity와 Shrinkage 방법을 적용

- Multicollinearity: 독립변수간 높은 상관관계를 가진 변수들

- Shrinkage: 변수의 계수에 정규화를 적용해서 0에 가깝게 계수를 감소시키고 분산을 감소시켜 모델을 개선

3A. LASSO = L1 Regularisation

장점

- 이상치에 대해 영향을 적게 받는다.

단점

- 계산이 힘들다.

- 복잡한 패턴을 학습할 수 없다.

3B. RIDGE regression = L2 Regularisation (제곱)

장점

- 계산이 용이하다.

- 복잡한 패턴을 학습할 수 있다.

단점

- 이상치 데이터에 영향을 많이 받는다.