티스토리 뷰

Kaggle 분석

M5 Forecasting 대회 개요 및 데이터 구성

데이터사이엔티스트 2020. 4. 13. 00:13

M-competition forecasting 대회는 유서가 깊은 예측 대회로,

1982년에 처음 개최되어서 4차 대회 (2018년)까지 진행 된 대회입니다.

 

M5는 M-competition의 5번째 대회로 처음으로 캐글에서 열리는 M-competition 대회입니다.

 

대회의 주 목적은 월마트의 추후 28일간 판매량 예측입니다.

 

대회는 총 2가지의 종류로 진행이 됩니다.

1. Sales Forecasting

2. Uncertainty Distribution

 

저는 이번에 Sales Forecasting에 집중해서 진행할 예정입니다.

 

Sales Forecasting 데이터 구성

42,840개의 hierarchical time series로 구성되있고 총 3개의 주의 월마트를 대상으로 진행합니다.

(캘리포니아, 텍사스, 위스콘신)

hierarchical의 레벨은 아이템, department, 상품 카테고리, 주 레벨 등이 있습니다.

 

2011년 1월~ 2016년 6월 데이터 기간동한 판매한 데이터가 다양하게 있습니다.

또한, 상품 가격, 프로모션, 공휴일 정보도 있습니다.

 

많은 시계열 데이터가 0의 값을 가지고 있으니 이를 꼭 잘 인지한 상태로 예측을 진행합니다.

 

학습 데이터는 총 3개의 테이블로 구성이 되어 있습니다.

1. sales_train.csv

- 2011년~2016년도 판매데이터

- item, department, category, store, state id 정보

- 30940개의 아이템 정보와 10개 스토어 정보를 보유

2. sell_prices.csv

- 스토어와 아이템 ID 그리고 주별 평균 제품 가격을 가지고 있음

3. calendar.csv

- 주, 월, 년도 데이터를 가지고 있음

 

데이터의 평가는 Root Mean Squared Scaled Error (RMSSE) 방식으로 진행합니다.