데이터분석 이론

앙상블 모델(Ensemble)이란

데이터사이엔티스트 2019. 3. 8. 10:08

앙상블 모델의 의미

앙상블(Ensemble)은 함께, 같이라는 뜻을 지니고 있으며,

통계, 머신러닝분야에서는 주어진 자료에 대해 여러 개의 분석모델을 만든 후 조합하여 하나의 최종 모형을 만드는 과정입니다.


앙상블 모델의 종류


1. 배깅 (bagging: bootstrap aggregating)


부트스트랩은 Input 데이터에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료입니다.


a. 여러 개의 부트스트랩 자료 생성

b. 각 부트스트랩 자료에서 예측 분석모델 생성

c. 예측모형결과를 결합해서 결과를 선정 


장점: 평균 예측모형을 생성함으로 인해 분산을 줄이고 예측력을 향상시킬 수 있으며 regularization 효과를 가질 수 있음


2. 부스팅 (boosting)


부스팅은 처음에는 동일한 확률로 복원추출은 진행하지만 다음번 추출과정부터 오분류된 데이터의 추출 확률을 높이는 방식으로 진행


장점: 훈련오차를 빠르게 줄여나갈 수 있다.