제주 퇴근시간 버스승차인원 예측 (Dacon 공모전) 개요
1. 공모전 개요
제주도민의 급격한 증가와 외국인의 증가로 인해, 제주도의 교통체증이 심각한 문제로 떠오르고 있습니다.
제주도 버스의 효율적인 운행을 위해 퇴근시간 승차인원을 예측하는 모델을 만들어 봅시다!
2. 공모전 기간
2019년 11월 11일 ~ 2019년 12월 6일
3. 데이터 설명
총 3개의 데이터 테이블로 구성
1. 학습 / 테스트 데이터
2. 버스 승하차 정보
3. submission 제출 양식
1. 학습/ 테스트 데이터
변수명 |
데이터 설명 |
id |
해당 데이터에서의 고유한 ID(train, test와의 중복은 없음) |
date |
날짜 |
bus_route_id |
노선ID |
in_out |
시내버스, 시외버스 구분 |
station_code |
해당 승하차 정류소의 ID |
station_name |
해당 승하차 정류소의 이름 |
latitude |
해당 버스 정류장의 위도 (같은 정류장 이름이어도 버스의 진행 방향에 따라 다를 수 있음) |
longitude |
해당 버스 정류장의 경도 (같은 정류장 이름이어도 버스의 진행 방향에 따라 다를 수 있음) |
6~7_ride |
6:00:00부터 6:59:59까지 승차한 인원 수 |
7~8_ride |
7:00:00부터 7:59:59까지 승차한 인원 수 |
8~9_ride |
8:00:00부터 8:59:59까지 승차한 인원 수 |
9~10_ride |
9:00:00부터 9:59:59까지 승차한 인원 수 |
10~11_ride |
10:00:00부터 10:59:59까지 승차한 인원 수 |
11~12_ride |
11:00:00부터 11:59:59까지 승차한 인원 수 |
6~7_takeoff |
6:00:00부터 6:59:59까지 하차한 인원 수 |
7~8_takeoff |
7:00:00부터 7:59:59까지 하차한 인원 수 |
8~9_takeoff |
8:00:00부터 8:59:59까지 하차한 인원 수 |
9~10_takeoff |
9:00:00부터 9:59:59까지 하차한 인원 수 |
10~11_takeoff |
10:00:00부터 10:59:59까지 하차한 인원 수 |
11~12_takeoff |
11:00:00부터 11:59:59까지 하차한 인원 수 |
18~20_ride |
18:00:00부터 19:59:59까지 승차한 인원 수 (train data에만 존재) |
2. 버스 승하차 정보
변수명 |
데이터 설명 |
user_card_id |
해당 승객의 버스카드ID |
bus_route_id |
노선ID |
vhc_id |
차량ID |
geton_date |
해당 승객이 탑승한 날짜 |
geton_time |
해당 승객이 탑승한 시간 |
geton_station_code |
승차정류소의 ID |
geton_station_name |
승차정류소의 이름 |
getoff_date |
해당 승객이 하차한 날짜 (하차태그 없는 경우, NaN) |
getoff_time |
해당 승객이 하차한 시간 (하차태그 없는 경우, NaN) |
getoff_station_code |
하차정류소의 ID (하차태그 없는 경우, NaN) |
getoff_station_name |
하차정류소의 이름 (하차태그 없는 경우, NaN) |
user_category |
승객 구분 (하단 표 참고) |
user_count |
해당 버스카드로 계산한 인원수 ( ex- 3은 3명 분의 버스비를 해당 카드 하나로 계산한 것) |
bus_bts.csv의 user_category (승객 구분 유형)
승객 구분 번호 |
승객 유형 설명 |
01 |
일반 |
02 |
어린이 |
04 |
청소년 |
06 |
경로 |
27 |
장애 일반 |
28 |
장애 동반 |
29 |
유공 일반 |
30 |
유공 동반 |
3. submission 테이블
변수명 |
데이터 설명 |
id |
test data에서의 고유한 ID |
18~20_ride |
18:00:00부터 19:59:59까지 승차한 인원 수 |
테스트 데이터는 18시부터 20시 승차 인원으로만 구성
다음 글에는 직접 분석한 내용을 공유드리겠습니다.