데이터분석 이론

XGBOOST (그래디언 부스팅)이란 무엇인가?

데이터사이엔티스트 2019. 3. 8. 13:56

현재 캐글 및 데이터 분석 공모전에서 가장 활발하게 사용되고 있는 XGBOOST에 대해 설명을 드리겠습니다.


XGBOOST의 정의

기존 그래디언 부스팅의 전산 속도와 모델 성능에 초점을 맞춘 패키지


XGBOOST의 장점

1. C 언어로 작성해 빠른 수행 속도

2. 교차검증을 자동으로 수행해주는 함수를 내재


XGBOOST의 특징

1. 결측치를 인식하고 자동으로 채워넣어 부스팅을 수행한다.

2. 트리 구조의 병렬화를 지원하는 블록 구조

3. 계속 훈련을 하기 때문에 이미 적합화된 모델을 새로운 데이터에 적용이 가능


XGBOOST와 기존 그래디언 부스팅 모델과의 차이점

XGBOOST는 과적합을 방지하기 위해 변수의 정규화를 사용 -> 모델의 정확도 향상

 

※ XGBOOST 수행 시 모든 변수는 숫자 형태여야 합니다.


출처: https://blog.naver.com/tjdudwo93/221071886633