Instant Gratification - 2. 데이터분석 Kernel 참고
데이터분석을 직접 시작하는 것도 좋지만 저는 아무래도 데이터분석을 잘해놓은 Kernel을 먼저 참고하기로 결심했습니다. 저는 neural network로 시작을 해서 나름 은메달로 상위권이였는데... 4일만에 50퍼센트의 등수로 떨어질 정도로 많은 분들이 빠르게 정확도를 올리고 있습니다.
분류분석인만큼 많은 캐글 고수님들이 다양한 분석기법을 이용한 Kernel을 사용하고 있습니다.
이 중에서 가장 눈에 띄는것은 Chris Deotte라는 분인데 현재 (5월 25일 기준) 대회에서 1등을 하고 계신 분입니다.
이분이 쓰는 분석기법은 SVM (Support Vector Machine), Logistic Regression, neural network을 쓰고 있습니다.
(다른 Kernel을 보면 lightgbm, neural network 등 다양한 패키지를 사용하고 있습니다.)
Support Vector Machine 정확도 - 0.925
링크: https://www.kaggle.com/cdeotte/support-vector-machine-0-925
Support Vector Machine - [0.925]
Using data from Instant Gratification
www.kaggle.com
Logistic Regression 정확도 - 0.800
링크: https://www.kaggle.com/cdeotte/logistic-regression-0-800
Logistic Regression - [0.800]
Using data from Instant Gratification
www.kaggle.com
두 정확도로만 보면 크게 높지는 않지만 여기서 Ensemble(앙상블 방법)을 사용해서 정확도를 올립니다.
1. Support Vector Machine + Logistic Regression
2. Support Vector Machine + Neural Network
링크: https://www.kaggle.com/cdeotte/private-lb-probing-0-950
Private LB Probing - [0.950]
Using data from Instant Gratification
www.kaggle.com
기존 앙상블 방법과는 조금 다른 컨셉으로 진행하는 방법이 저는 신기하기도 하고 재밌는 것 같습니다.
다른 고수분들의 커널 및 디스커션도 많이 참고해보고 저도 개인적으로 노력을 해서 가지고 순위권에 들도록 노력해보겠습니다.
언제든 좋은 의견 공유해주세요! 다들 파이팅하세요.