Kaggle 분석

제주 퇴근시간 버스승차인원 예측 (Dacon 공모전) 개요

데이터사이엔티스트 2019. 11. 17. 20:49

1. 공모전 개요

제주도민의 급격한 증가와 외국인의 증가로 인해, 제주도의 교통체증이 심각한 문제로 떠오르고 있습니다.

제주도 버스의 효율적인 운행을 위해 퇴근시간 승차인원을 예측하는 모델을 만들어 봅시다!

 

2. 공모전 기간

2019년 11월 11일 ~ 2019년 12월 6일

 

3. 데이터 설명

총 3개의 데이터 테이블로 구성

1. 학습 / 테스트 데이터

2. 버스 승하차 정보

3. submission 제출 양식

 

1. 학습/ 테스트 데이터

변수명

데이터 설명

id

해당 데이터에서의 고유한 ID(train, test와의 중복은 없음)

date

날짜

bus_route_id

노선ID

in_out

시내버스, 시외버스 구분

station_code

해당 승하차 정류소의 ID

station_name

해당 승하차 정류소의 이름

latitude

해당 버스 정류장의 위도

(같은 정류장 이름이어도 버스의 진행 방향에 따라 다를 수 있음)

longitude

해당 버스 정류장의 경도

(같은 정류장 이름이어도 버스의 진행 방향에 따라 다를 수 있음)

6~7_ride

6:00:00부터 6:59:59까지 승차한 인원 수

7~8_ride

7:00:00부터 7:59:59까지 승차한 인원 수

8~9_ride

8:00:00부터 8:59:59까지 승차한 인원 수

9~10_ride

9:00:00부터 9:59:59까지 승차한 인원 수

10~11_ride

10:00:00부터 10:59:59까지 승차한 인원 수

11~12_ride

11:00:00부터 11:59:59까지 승차한 인원 수

6~7_takeoff

6:00:00부터 6:59:59까지 하차한 인원 수

7~8_takeoff

7:00:00부터 7:59:59까지 하차한 인원 수

8~9_takeoff

8:00:00부터 8:59:59까지 하차한 인원 수

9~10_takeoff

9:00:00부터 9:59:59까지 하차한 인원 수

10~11_takeoff

10:00:00부터 10:59:59까지 하차한 인원 수

11~12_takeoff

11:00:00부터 11:59:59까지 하차한 인원 수

18~20_ride

18:00:00부터 19:59:59까지 승차한 인원 수

(train data에만 존재)

2. 버스 승하차 정보

변수명

데이터 설명

user_card_id

해당 승객의 버스카드ID

bus_route_id

노선ID

vhc_id

차량ID

geton_date

해당 승객이 탑승한 날짜

geton_time

해당 승객이 탑승한 시간

geton_station_code

승차정류소의 ID

geton_station_name

승차정류소의 이름

getoff_date

해당 승객이 하차한 날짜 (하차태그 없는 경우, NaN)

getoff_time

해당 승객이 하차한 시간 (하차태그 없는 경우, NaN)

getoff_station_code

하차정류소의 ID (하차태그 없는 경우, NaN)

getoff_station_name

하차정류소의 이름 (하차태그 없는 경우, NaN)

user_category

승객 구분 (하단 표 참고)

user_count

해당 버스카드로 계산한 인원수

( ex- 3 3명 분의 버스비를 해당 카드 하나로 계산한 것)

bus_bts.csv user_category (승객 구분 유형)

 

승객 구분 번호

승객 유형 설명

01

일반

02

어린이

04

청소년

06

경로

27

장애 일반

28

장애 동반

29

유공 일반

30

유공 동반

 

3. submission 테이블

변수명

데이터 설명

id

test data에서의 고유한 ID

18~20_ride

18:00:00부터 19:59:59까지 승차한 인원 수

 

테스트 데이터는 18시부터 20시 승차 인원으로만 구성

 

다음 글에는 직접 분석한 내용을 공유드리겠습니다.