티스토리 뷰
변수가 속성에 따라 구분은 되어있지만 보안상 이슈때문에 구분하는데 방법을 달리해야됐습니다.
컬럼 변수들은 총 3가지로 구분이 되어있습니다.
- bin = binary variables (0,1로 이루어진 변수)
- cat = categorical variables (범주형 변수)
- 그 외 다른 변수들 = continuous variables (연속형 변수)
1. Metadata 생성
데이터 속성을 좀 더 편리하게 구분하기 위해서 메타 데이터셋을 만들었습니다.
- 명목형
- 이산형
- 연속형
- 범주형
2. Oversampling, Undersampling 방법론 적용하기
타겟변수가 0,1로 고르게 어느정도 고르게 분포되어있는지 체크하기 위해서 oversampling, undersampling 방법론을 적용했다.
3. 결측치 체크하기
비어있는 데이터 (결측치)를 체크해서 일정부분 원하는 것만 넣기
4. 범주형 변수 처리
범주형 변수들의 distinct 값이 몇개 있는지를 체크
유의미한 범주형 변수들을 추출
5. Feature Engineering
- dummy variable 처리 (57 -> 109개로 증가)
- 상관도가 높은 변수들끼리 조합해서 만드는 interaction variable 생성 (109 -> 164개로 증가)
- 데이터의 분산이 낮거나 0인 변수들 제거
- 랜덤포레스트 모델 내 select feature 기능을 사용해서 유의미한 변수 81개 선정
6. Feature Scaling
변수들의 데이터 폭을 동일하게 세팅하기 위한 방법론
- Standardization (Z-score normalization)
- Min-max Scaling
- Binarizing
- Normalizing
6가지의 스텝을 거쳐서 데이터 전처리가 끝나면 다음엔 예측 모델 만드는 포스팅을 만들겠습니다.
출처: https://www.kaggle.com/bertcarremans/data-preparation-exploration
Data Preparation & Exploration
Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction
www.kaggle.com
'Kaggle 분석' 카테고리의 다른 글
M5 Forecasting 대회 개요 및 데이터 구성 (0) | 2020.04.13 |
---|---|
Porto Seguro's Safe Driver Prediction - 1. 공모전 및 데이터 설명 (0) | 2020.02.02 |
Dacon 공모전 - 국민은행 스미싱분석 공모전 (1) | 2019.12.15 |
제주 퇴근시간 버스승차인원 예측 (Dacon 공모전) 개요 (0) | 2019.11.17 |
배틀그라운드 등수 예측하기 - Competition / 데이터 요약 (0) | 2019.10.05 |
- Total
- Today
- Yesterday
- 데이터분석
- 비전공자데이터분석
- 주식종목예측시나리오
- 캐글
- 분류 모델 성능 평가지표
- 독립표본 t 검정
- wordembedding
- 국어정보처리시스템경진대회2020
- 텍스트분석
- 대응표본 검정
- 추천시스템논문
- denserepresentation
- kaggle competition
- 표본 추출
- 데이터분석 척도
- 국립국어원대회
- 빅데이터공모전
- 통계 척도
- significant level
- 데이터분석공모전
- instantgratification
- 일표본 검정
- featureextraction
- 통계 분류 검증
- 딥러닝추천시스템
- kaggle
- featureselection
- 자연어처리공모전
- recommendationsystem
- 딥러닝추천모델
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |