Kaggle 분석

Porto Seguro’s Safe Driver Prediction - 2. 데이터 전처리 및 탐색

데이터사이엔티스트 2020. 2. 8. 00:53

변수가 속성에 따라 구분은 되어있지만 보안상 이슈때문에 구분하는데 방법을 달리해야됐습니다.

 

컬럼 변수들은 총 3가지로 구분이 되어있습니다.

- bin = binary variables (0,1로 이루어진 변수)

- cat = categorical variables (범주형 변수)

- 그 외 다른 변수들 = continuous variables (연속형 변수)

 

1. Metadata 생성

데이터 속성을 좀 더 편리하게 구분하기 위해서 메타 데이터셋을 만들었습니다.

- 명목형 

- 이산형

- 연속형

- 범주형

 

2. Oversampling, Undersampling 방법론 적용하기

타겟변수가 0,1로 고르게 어느정도 고르게 분포되어있는지 체크하기 위해서 oversampling, undersampling 방법론을 적용했다. 

 

3. 결측치 체크하기

비어있는 데이터 (결측치)를 체크해서 일정부분 원하는 것만 넣기

 

4. 범주형 변수 처리

범주형 변수들의 distinct 값이 몇개 있는지를 체크

유의미한 범주형 변수들을 추출

 

5. Feature Engineering

- dummy variable 처리 (57 -> 109개로 증가)

- 상관도가 높은 변수들끼리 조합해서 만드는 interaction variable 생성 (109 -> 164개로 증가)

- 데이터의 분산이 낮거나 0인 변수들 제거

- 랜덤포레스트 모델 내 select feature 기능을 사용해서 유의미한 변수 81개 선정  

 

6. Feature Scaling

변수들의 데이터 폭을 동일하게 세팅하기 위한 방법론

- Standardization (Z-score normalization)

- Min-max Scaling

- Binarizing

- Normalizing

 

6가지의 스텝을 거쳐서 데이터 전처리가 끝나면 다음엔 예측 모델 만드는 포스팅을 만들겠습니다.

 

출처: https://www.kaggle.com/bertcarremans/data-preparation-exploration

 

Data Preparation & Exploration

Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction

www.kaggle.com