본문 바로가기 메뉴 바로가기

경영학도 Data Scientist 되자!!

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

경영학도 Data Scientist 되자!!

검색하기 폼
  • 분류 전체보기 (49)
    • 데이터분석 이론 (28)
    • 데이터분석 실습 (0)
    • 데이터분석 강의노트 (1)
    • Kaggle 분석 (9)
    • 텍스트분석 (6)
  • 방명록

Kaggle 분석 (9)
M5 Forecasting 대회 개요 및 데이터 구성

M-competition forecasting 대회는 유서가 깊은 예측 대회로, 1982년에 처음 개최되어서 4차 대회 (2018년)까지 진행 된 대회입니다. M5는 M-competition의 5번째 대회로 처음으로 캐글에서 열리는 M-competition 대회입니다. 대회의 주 목적은 월마트의 추후 28일간 판매량 예측입니다. 대회는 총 2가지의 종류로 진행이 됩니다. 1. Sales Forecasting 2. Uncertainty Distribution 저는 이번에 Sales Forecasting에 집중해서 진행할 예정입니다. Sales Forecasting 데이터 구성 42,840개의 hierarchical time series로 구성되있고 총 3개의 주의 월마트를 대상으로 진행합니다. (캘리포니아..

Kaggle 분석 2020. 4. 13. 00:13
Porto Seguro’s Safe Driver Prediction - 2. 데이터 전처리 및 탐색

변수가 속성에 따라 구분은 되어있지만 보안상 이슈때문에 구분하는데 방법을 달리해야됐습니다. 컬럼 변수들은 총 3가지로 구분이 되어있습니다. - bin = binary variables (0,1로 이루어진 변수) - cat = categorical variables (범주형 변수) - 그 외 다른 변수들 = continuous variables (연속형 변수) 1. Metadata 생성 데이터 속성을 좀 더 편리하게 구분하기 위해서 메타 데이터셋을 만들었습니다. - 명목형 - 이산형 - 연속형 - 범주형 2. Oversampling, Undersampling 방법론 적용하기 타겟변수가 0,1로 고르게 어느정도 고르게 분포되어있는지 체크하기 위해서 oversampling, undersampling 방법론을 ..

Kaggle 분석 2020. 2. 8. 00:53
Porto Seguro's Safe Driver Prediction - 1. 공모전 및 데이터 설명

공모전 이름 Porto Seguro's Safe Driver Prediction 공모전 배경 - 자동차 보험 회사인 Porto Seguro에서 잘못 된 고객 분류로 인해 사고를 덜 내는 좋은 운전자에게 더 과한 보험 요금을 청구하고 사고를 좀 더 자주내는 운전자에게 상대적으로 저렴한 보험 요금 청구를 하는 경우가 있어 이를 고치기 위해 이렇게 공모전을 개최했다. 공모전 분석 목적 - 운전자가 내년에 보험을 다시 갱신을 할 확률이 몇 %인지 예측하는 분석모델 생성 데이터 구성 - train.csv (학습 데이터) - test.csv (테스트 데이터) - sample_submission.csv (제출 데이터) 컬럼 구성 학습 데이터 총 58개의 컬럼으로 구성되어있고, 보안상 이슈때문에 컬럼 개개인의 속성은 ..

Kaggle 분석 2020. 2. 2. 18:25
Dacon 공모전 - 국민은행 스미싱분석 공모전

국민은행 스미싱 분석 공모전 1. 배경 최근 스미싱 문자 피해 사례가 급격히 늘어남에 따라 고객들의 피해가 늘어나고 있어 이를 방지하기 위해 스미싱 예측 모델 도입이 필요 2. 데이터 구성 학습 데이터, 테스트 데이터 (반은 공개 / 반은 비공개로 진행), 제출양식 3. 데이터 설명 A. 학습 데이터, 테스트 데이터 변수 명 변수 설명 id 각 문자가 가지고 있는 고유 구분 번호 (train Data와 public_test Data의 id는 중복되지 않음) year_month 고객이 문자를 전송 받은 년도와 월 text 고객이 전송 받은 문자의 내용 smishing (train_data에만 해당) 해당 문자의 스미싱 여부 (0 - 스미싱 아님, 1 - 스미싱) B. 제출양식 변수 명 변수 설명 id pu..

Kaggle 분석 2019. 12. 15. 22:30
제주 퇴근시간 버스승차인원 예측 (Dacon 공모전) 개요

1. 공모전 개요 제주도민의 급격한 증가와 외국인의 증가로 인해, 제주도의 교통체증이 심각한 문제로 떠오르고 있습니다. 제주도 버스의 효율적인 운행을 위해 퇴근시간 승차인원을 예측하는 모델을 만들어 봅시다! 2. 공모전 기간 2019년 11월 11일 ~ 2019년 12월 6일 3. 데이터 설명 총 3개의 데이터 테이블로 구성 1. 학습 / 테스트 데이터 2. 버스 승하차 정보 3. submission 제출 양식 1. 학습/ 테스트 데이터 변수명 데이터 설명 id 해당 데이터에서의 고유한 ID(train, test와의 중복은 없음) date 날짜 bus_route_id 노선ID in_out 시내버스, 시외버스 구분 station_code 해당 승하차 정류소의 ID station_name 해당 승하차 정류소..

Kaggle 분석 2019. 11. 17. 20:49
배틀그라운드 등수 예측하기 - Competition / 데이터 요약

게임을 좋아하는 저에게 아주 흥미로운 Competition이 눈에 들어왔습니다. 다름이 아니라 배틀그라운드 유저의 정보를 분석해 경기에서 몇 등을 할지를 예측하는 게임입니다! 정말 재밌을 거 같지 않나요 ㅎㅎ 내가 하면 왠만한 경기 꼴등 찍을거 같지만 간단한 요약 설명 적어놓겠습니다! 일단 학습용 데이터와 테스트용 데이터로 나누어져 있습니다. 그리고 정확도 체크를 하기 위한 서브미션 파일이 있습니다. 데이터 필드를 살펴보면 플레이어들에 대한 간단한 정보에 대한 데이터가 있습니다. 경기 당 킬 / 어시스트 / 데미지량 등 다양한 데이터가 있습니다. 링크: https://www.kaggle.com/c/pubg-finish-placement-prediction/data PUBG Finish Placement ..

Kaggle 분석 2019. 10. 5. 18:03
Instant Gratification - 3. Feature Selection & QDA

지금 공모전 내 가장 높은 baseline 정확도를 보이고 있는 기법은 QDA (Quadratic Discriminant Analysis)다. 아래 Kernel을 참고하면 20줄 정도밖에 안되는 코드로 96.5퍼센터의 상당히 높은 정확도를 보이고 있다. https://www.kaggle.com/speedwagon/quadratic-discriminant-analysis 커너를 요약하자면, 1. 학습 데이터 및 테스트 데이터 로드 2. VarianceThreshold 기법을 사용해서 분산이 낮은 feature들 제거 https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html sklearn...

Kaggle 분석 2019. 6. 2. 17:54
Instant Gratification - 2. 데이터분석 Kernel 참고

데이터분석을 직접 시작하는 것도 좋지만 저는 아무래도 데이터분석을 잘해놓은 Kernel을 먼저 참고하기로 결심했습니다. 저는 neural network로 시작을 해서 나름 은메달로 상위권이였는데... 4일만에 50퍼센트의 등수로 떨어질 정도로 많은 분들이 빠르게 정확도를 올리고 있습니다. 분류분석인만큼 많은 캐글 고수님들이 다양한 분석기법을 이용한 Kernel을 사용하고 있습니다. 이 중에서 가장 눈에 띄는것은 Chris Deotte라는 분인데 현재 (5월 25일 기준) 대회에서 1등을 하고 계신 분입니다. 이분이 쓰는 분석기법은 SVM (Support Vector Machine), Logistic Regression, neural network을 쓰고 있습니다. (다른 Kernel을 보면 lightgb..

Kaggle 분석 2019. 5. 25. 22:09
이전 1 2 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • 데이터분석 척도
  • 국립국어원대회
  • denserepresentation
  • 캐글
  • 독립표본 t 검정
  • featureextraction
  • 텍스트분석
  • 분류 모델 성능 평가지표
  • 비전공자데이터분석
  • 자연어처리공모전
  • instantgratification
  • featureselection
  • 통계 척도
  • 주식종목예측시나리오
  • 일표본 검정
  • 빅데이터공모전
  • 표본 추출
  • 데이터분석공모전
  • 대응표본 검정
  • kaggle competition
  • 추천시스템논문
  • 통계 분류 검증
  • 국어정보처리시스템경진대회2020
  • wordembedding
  • recommendationsystem
  • significant level
  • 데이터분석
  • 딥러닝추천모델
  • 딥러닝추천시스템
  • kaggle
more
«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바