
지금 공모전 내 가장 높은 baseline 정확도를 보이고 있는 기법은 QDA (Quadratic Discriminant Analysis)다. 아래 Kernel을 참고하면 20줄 정도밖에 안되는 코드로 96.5퍼센터의 상당히 높은 정확도를 보이고 있다. https://www.kaggle.com/speedwagon/quadratic-discriminant-analysis 커너를 요약하자면, 1. 학습 데이터 및 테스트 데이터 로드 2. VarianceThreshold 기법을 사용해서 분산이 낮은 feature들 제거 https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html sklearn...
데이터분석을 직접 시작하는 것도 좋지만 저는 아무래도 데이터분석을 잘해놓은 Kernel을 먼저 참고하기로 결심했습니다. 저는 neural network로 시작을 해서 나름 은메달로 상위권이였는데... 4일만에 50퍼센트의 등수로 떨어질 정도로 많은 분들이 빠르게 정확도를 올리고 있습니다. 분류분석인만큼 많은 캐글 고수님들이 다양한 분석기법을 이용한 Kernel을 사용하고 있습니다. 이 중에서 가장 눈에 띄는것은 Chris Deotte라는 분인데 현재 (5월 25일 기준) 대회에서 1등을 하고 계신 분입니다. 이분이 쓰는 분석기법은 SVM (Support Vector Machine), Logistic Regression, neural network을 쓰고 있습니다. (다른 Kernel을 보면 lightgb..
- Total
- Today
- Yesterday
- 국립국어원대회
- 독립표본 t 검정
- kaggle
- 대응표본 검정
- 표본 추출
- 텍스트분석
- 데이터분석
- 국어정보처리시스템경진대회2020
- recommendationsystem
- 주식종목예측시나리오
- 데이터분석 척도
- wordembedding
- kaggle competition
- 비전공자데이터분석
- significant level
- 자연어처리공모전
- 추천시스템논문
- 통계 분류 검증
- 일표본 검정
- 딥러닝추천모델
- 분류 모델 성능 평가지표
- featureextraction
- 통계 척도
- 데이터분석공모전
- featureselection
- denserepresentation
- 캐글
- instantgratification
- 딥러닝추천시스템
- 빅데이터공모전
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |