티스토리 뷰
M-competition forecasting 대회는 유서가 깊은 예측 대회로,
1982년에 처음 개최되어서 4차 대회 (2018년)까지 진행 된 대회입니다.
M5는 M-competition의 5번째 대회로 처음으로 캐글에서 열리는 M-competition 대회입니다.
대회의 주 목적은 월마트의 추후 28일간 판매량 예측입니다.
대회는 총 2가지의 종류로 진행이 됩니다.
1. Sales Forecasting
2. Uncertainty Distribution
저는 이번에 Sales Forecasting에 집중해서 진행할 예정입니다.
Sales Forecasting 데이터 구성
42,840개의 hierarchical time series로 구성되있고 총 3개의 주의 월마트를 대상으로 진행합니다.
(캘리포니아, 텍사스, 위스콘신)
hierarchical의 레벨은 아이템, department, 상품 카테고리, 주 레벨 등이 있습니다.
2011년 1월~ 2016년 6월 데이터 기간동한 판매한 데이터가 다양하게 있습니다.
또한, 상품 가격, 프로모션, 공휴일 정보도 있습니다.
많은 시계열 데이터가 0의 값을 가지고 있으니 이를 꼭 잘 인지한 상태로 예측을 진행합니다.
학습 데이터는 총 3개의 테이블로 구성이 되어 있습니다.
1. sales_train.csv
- 2011년~2016년도 판매데이터
- item, department, category, store, state id 정보
- 30940개의 아이템 정보와 10개 스토어 정보를 보유
2. sell_prices.csv
- 스토어와 아이템 ID 그리고 주별 평균 제품 가격을 가지고 있음
3. calendar.csv
- 주, 월, 년도 데이터를 가지고 있음
데이터의 평가는 Root Mean Squared Scaled Error (RMSSE) 방식으로 진행합니다.
'Kaggle 분석' 카테고리의 다른 글
Porto Seguro’s Safe Driver Prediction - 2. 데이터 전처리 및 탐색 (0) | 2020.02.08 |
---|---|
Porto Seguro's Safe Driver Prediction - 1. 공모전 및 데이터 설명 (0) | 2020.02.02 |
Dacon 공모전 - 국민은행 스미싱분석 공모전 (1) | 2019.12.15 |
제주 퇴근시간 버스승차인원 예측 (Dacon 공모전) 개요 (0) | 2019.11.17 |
배틀그라운드 등수 예측하기 - Competition / 데이터 요약 (0) | 2019.10.05 |
- Total
- Today
- Yesterday
- denserepresentation
- 분류 모델 성능 평가지표
- 대응표본 검정
- wordembedding
- 추천시스템논문
- kaggle competition
- featureselection
- 데이터분석
- 자연어처리공모전
- recommendationsystem
- 표본 추출
- 텍스트분석
- 딥러닝추천모델
- significant level
- kaggle
- 일표본 검정
- instantgratification
- 딥러닝추천시스템
- 국어정보처리시스템경진대회2020
- 통계 분류 검증
- 주식종목예측시나리오
- 통계 척도
- 비전공자데이터분석
- 캐글
- 데이터분석공모전
- featureextraction
- 빅데이터공모전
- 독립표본 t 검정
- 국립국어원대회
- 데이터분석 척도
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |