경영학도 Data Scientist 되자!!

Porto Seguro’s Safe Driver Prediction - 2. 데이터 전처리 및 탐색

변수가 속성에 따라 구분은 되어있지만 보안상 이슈때문에 구분하는데 방법을 달리해야됐습니다. 컬럼 변수들은 총 3가지로 구분이 되어있습니다. - bin = binary variables (0,1로 이루어진 변수) - cat = categorical variables (범주형 변수) - 그 외 다른 변수들 = continuous variables (연속형 변수) 1. Metadata 생성 데이터 속성을 좀 더 편리하게 구분하기 위해서 메타 데이터셋을 만들었습니다. - 명목형 - 이산형 - 연속형 - 범주형 2. Oversampling, Undersampling 방법론 적용하기 타겟변수가 0,1로 고르게 어느정도 고르게 분포되어있는지 체크하기 위해서 oversampling, undersampling 방법론을 ..

Kaggle 분석 2020. 2. 8. 00:53

Porto Seguro's Safe Driver Prediction - 1. 공모전 및 데이터 설명

공모전 이름 Porto Seguro's Safe Driver Prediction 공모전 배경 - 자동차 보험 회사인 Porto Seguro에서 잘못 된 고객 분류로 인해 사고를 덜 내는 좋은 운전자에게 더 과한 보험 요금을 청구하고 사고를 좀 더 자주내는 운전자에게 상대적으로 저렴한 보험 요금 청구를 하는 경우가 있어 이를 고치기 위해 이렇게 공모전을 개최했다. 공모전 분석 목적 - 운전자가 내년에 보험을 다시 갱신을 할 확률이 몇 %인지 예측하는 분석모델 생성 데이터 구성 - train.csv (학습 데이터) - test.csv (테스트 데이터) - sample_submission.csv (제출 데이터) 컬럼 구성 학습 데이터 총 58개의 컬럼으로 구성되어있고, 보안상 이슈때문에 컬럼 개개인의 속성은 ..

Kaggle 분석 2020. 2. 2. 18:25

Undersampling이란 무엇인가?

보호되어 있는 글입니다.

보호글 2019. 12. 15. 23:48

Dacon 공모전 - 국민은행 스미싱분석 공모전

국민은행 스미싱 분석 공모전 1. 배경 최근 스미싱 문자 피해 사례가 급격히 늘어남에 따라 고객들의 피해가 늘어나고 있어 이를 방지하기 위해 스미싱 예측 모델 도입이 필요 2. 데이터 구성 학습 데이터, 테스트 데이터 (반은 공개 / 반은 비공개로 진행), 제출양식 3. 데이터 설명 A. 학습 데이터, 테스트 데이터 변수 명 변수 설명 id 각 문자가 가지고 있는 고유 구분 번호 (train Data와 public_test Data의 id는 중복되지 않음) year_month 고객이 문자를 전송 받은 년도와 월 text 고객이 전송 받은 문자의 내용 smishing (train_data에만 해당) 해당 문자의 스미싱 여부 (0 - 스미싱 아님, 1 - 스미싱) B. 제출양식 변수 명 변수 설명 id pu..

Kaggle 분석 2019. 12. 15. 22:30

제주 퇴근시간 버스승차인원 예측 (Dacon 공모전) 개요

1. 공모전 개요 제주도민의 급격한 증가와 외국인의 증가로 인해, 제주도의 교통체증이 심각한 문제로 떠오르고 있습니다. 제주도 버스의 효율적인 운행을 위해 퇴근시간 승차인원을 예측하는 모델을 만들어 봅시다! 2. 공모전 기간 2019년 11월 11일 ~ 2019년 12월 6일 3. 데이터 설명 총 3개의 데이터 테이블로 구성 1. 학습 / 테스트 데이터 2. 버스 승하차 정보 3. submission 제출 양식 1. 학습/ 테스트 데이터 변수명 데이터 설명 id 해당 데이터에서의 고유한 ID(train, test와의 중복은 없음) date 날짜 bus_route_id 노선ID in_out 시내버스, 시외버스 구분 station_code 해당 승하차 정류소의 ID station_name 해당 승하차 정류소..

Kaggle 분석 2019. 11. 17. 20:49

딥러닝 수업- Drop out regularization

Dropout - 모델의 과적합 (Overfitting)을 방지하기 위해 고안해낸 방법론 - 인공신경망에서 drop out을 0.5로 지정해놓으면 랜덤으로 전체 노드의 50%를 지우고 진행하는 방식 drop out keep prop - 두 단어는 상반되는 단어로 drop out은 노드의 몇 %를 지울지 정하는 하이퍼 파라미터지만 반면, keep prob은 노드의 몇 %를 유지할 지 정하는 하이퍼 파라미터

데이터분석 이론 2019. 11. 16. 15:04

배틀그라운드 등수 예측하기 - Competition / 데이터 요약

게임을 좋아하는 저에게 아주 흥미로운 Competition이 눈에 들어왔습니다. 다름이 아니라 배틀그라운드 유저의 정보를 분석해 경기에서 몇 등을 할지를 예측하는 게임입니다! 정말 재밌을 거 같지 않나요 ㅎㅎ 내가 하면 왠만한 경기 꼴등 찍을거 같지만 간단한 요약 설명 적어놓겠습니다! 일단 학습용 데이터와 테스트용 데이터로 나누어져 있습니다. 그리고 정확도 체크를 하기 위한 서브미션 파일이 있습니다. 데이터 필드를 살펴보면 플레이어들에 대한 간단한 정보에 대한 데이터가 있습니다. 경기 당 킬 / 어시스트 / 데미지량 등 다양한 데이터가 있습니다. 링크: https://www.kaggle.com/c/pubg-finish-placement-prediction/data PUBG Finish Placement ..

Kaggle 분석 2019. 10. 5. 18:03

5가지의 Clustering (군집 분석) 알고리즘 설명 및 비교 (1/2)

클러스터링 알고리즘 - 대표적인 비지도학습 머신러닝 알고리즘 - 각 데이터를 점으로 표현해서 비슷한 속성들끼리 그룹화하는 알고리즘 1. K-Means Clustering 1. 군집의 갯수를 정한다. (예시에서는 3개) 2. 각 점과 3개의 군집 포인트간의 거리를 계산 후 가장 가까운 군집 포인트로 분류하기 3. 3개의 군집 포인트에 분류된 3개의 그룹을 기반으로 다시 그룹의 중심을 계산하기 4. 산출된 3개의 그룹 내 점들의 구성의 변화가 적을때까지 반복하기 (새로운 랜덤한 포인트로 다시 군집을 시도하는 등 다양한 파라미터 조정에 따른 최적화된 결과 산출 가능) 2. Mean Shift Clustering sliding-window-based 알고리즘으로 데이터 점들이 가장 몰려있는 포인트들을 찾는 알고..

데이터분석 이론 2019. 9. 22. 20:31

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

티스토리툴바