Feature Selection (Filtering, Wrapper, Embedded Methods)

티스토리 뷰

데이터분석 이론

Feature Selection (Filtering, Wrapper, Embedded Methods)

데이터사이엔티스트 2019. 5. 18. 15:32

Feature Selection은 데이터 Feature들 중에서 필요한 피쳐를 선택하는 분석 방법론입니다.

Feature Selection의 3개의 방법론에 대해서 알아보겠습니다.

1. Filtering

- 필터링 기법 내에 3개의 방법으로 진행이 가능

- 필터링 기법은 단어의 뜻 그대로 데이터의 중요도가 높은 변수들을 선택하는 방법

1A. T-Test

- 두 집단간 평균을 비교하는 통계분석 기법 (연속형 변수)

1B. Chi-squared test

- 두 집단간 평균을 비교하는 통계분석 기법 (범주형 변수)

1C. Impurity (Gini-impurity, Information Gain)

- 데이터의 불순도를 판단해주는 분석 기법

- 간단히 말하면, 데이터 내 어떠한 피쳐가 데이터를 얼마나 잘 분류해주는 수식을 통해 수치로 표현해서 판단하는 분석 방법이다.

- 종속 변수가 시험성적이고 독립 변수가 공부 시간이라고 가정을 했을 시, 공부를 많이 할 수록 시험 성적이 더 높게 나올것이기 때문에 공부 시간은 순도가 높은 좋은 피쳐이다. 종속 변수가 시험성적이고 독립 변수가 100m 달리기 기록이라고 가정을 하면, 두 변수의 관계가 없으므로 100m 달리기 기록 피쳐는 순도가 낮은 (불순도가 높은) 피쳐이다.

- 이런식으로 순도가 높은 피쳐를 찾는 분석 기법을 Impurity라고 합니다.

2. Wrapper

- Wrapper 기법은 총 4가지 알고리즘으로 진행이 가능

- Wrapper은 매우 기본적인 방법론으로 반복작업을 통해서 모델의 정확도를 향상시키는 방법론이다.

2A. Forward Greedy

- 선택된 feature가 없는 상태에서 시작

- feature를 하나씩 넣으면서 모델의 정확도를 일정수준 향상시키면 해당 feature를 분석모델에 추가

- feature 갯수와 정확도가 일정 수준에 도달할때까지 반복 작업

2B. Backward Greedy

- 모든 feature들을 넣은 상태에서 시작

- 각 feature들을 제거한 상태에서 모델의 정확도를 산출 후 정확도를 가장 작은 폭으로 떨어트리는 feature들을 순차적으로 제거 (정확도 향상에 적은 영향을 주는 feature들을 먼저 제거)

- feature 갯수와 정확도가 일정 수준에 도달할때까지 반복 작업

2C. Genetic Search

- 유전학에서 비롯된 알고리즘으로 랜덤하게 몇개의 데이터의 포인트를 선정 후 좋은 결과들끼리 결합 혹은 더 나은 방법으로 데이터를 변경하면서 모델의 성능을 향상시키는 방법론

2D. Local Search

- 한 점에서 시작해서 이웃점들과 비교 후 결과가 가장 좋은 곳으로 변경하는 과정을 반복하는 방법론

3. Embedded Methods

- Embedded Methods는 총 2가지의 방식이 존재합니다.

- RIDGE와 LASSO 회귀분석은 모델의 복잡도를 낮춰주고 과적합을 방지해주는 정규화 방법론

- LASSO와 RIDGE 분석기법을 통해 모델의 성능을 향상시키는 Multicollinearity와 Shrinkage 방법을 적용

- Multicollinearity: 독립변수간 높은 상관관계를 가진 변수들

- Shrinkage: 변수의 계수에 정규화를 적용해서 0에 가깝게 계수를 감소시키고 분산을 감소시켜 모델을 개선

3A. LASSO = L1 Regularisation

장점

- 이상치에 대해 영향을 적게 받는다.

단점

- 계산이 힘들다.

- 복잡한 패턴을 학습할 수 없다.

3B. RIDGE regression = L2 Regularisation (제곱)

장점

- 계산이 용이하다.

- 복잡한 패턴을 학습할 수 있다.

단점

- 이상치 데이터에 영향을 많이 받는다.

'데이터분석 이론' 카테고리의 다른 글

Classification 기법 - 최근접 이웃 (KNN) (0)	2019.05.19
통계 데이터의 종류와 수집 방법 (0)	2019.05.19
Feature Extraction (PCA & LDA) (0)	2019.05.18
차원의 저주 (Curse of Dimensionality) (2)	2019.05.18
컴퓨터 인식 (Computer Vision) 기본 (0)	2019.05.16

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

경영학도 Data Scientist 되자!!

티스토리 뷰