
표본이 1개 혹은 2개인 경우에는, t 검정을 사용했다.표본이 3개 이상인 경우에는, 분산분석(Analysis of variance)를 사용한다. ANOVA 아노바로 읽음 일원분산분석일원분산분석은 3개 이상의 표본에 대해 독립변수 1개인 경우 집단간 종속변수의 평균 차이를 비교하는 분석 방법 국내 편의점 중1. 바이더웨이2. 씨유3. 세븐일레븐4. 미니스탑5. 지에스 25 에 대한 소비자 기준 만족도를 조사했다. 각 편의점에 대한 소비자 만족도의 차이가 있는지를 알아봅시다. 귀무가설: 편의점별 소비자의 만족도는 같다.대립가설: 편의점별 소비자의 만족도는 다르다. 제곱합자유도평균제곱F유의확률집단-간18.95344.7385.135.001집단-내170.710185.923 전체189.663189 "집단 ..
t 검정은 연구자가 인식한 문제점이 '맞는가/맞지 않는가', '영향이 있는가.없는가', '차이가 있는가/없는가' 등과 같은 표본들의 평균 차이를 비교하는 방법이다. t 검정을 사용하려면 독립변수는 명목척도로, 종속변수는 등간척도나 비율척도로 구성 되어야 한다. t 검정에서 실제로 검정하는 내용은 가설이 유의확률 내에 들어가는지 아닌지를 판단하는 것으로, 각 변수가 어느정도의 영향력을 미치는지는 분석하지 않는다. (회귀분석에서 다룰 예정) 대상 표본 개수 측정 횟수 검정 방법 평균 비교 1개 1회 일표본 t 검정 평균 비교 1개 2회 대응표본 t 검정 평균 비교 2개 1회 독립표본 t 검정 평균 비교 3개 이상 1회 분산분석 분산 분석 1개 1회 카이제곱 검정 분산 분석 2개 1회 F 검정 일표본 t 검정..
통계를 이용한 연구에서 연구대상의 전체를 모두 조사해 결과를 제시한다면 그 문제에 대해 문제를 제기하기는 힘드나, 모든 표본을 대상으로 연구를 하기에 많은 제약이 따르기에,표본의 일부를 추출해서 통계분석을 진행하는 방법론을 표본 추출이라고 한다. 표본을 어떻게 추출하는가에 따라서 대표성이 있는지 없는지를 판단할 수 있기 때문이다.-> 전체 집합에서 일부를 추출한 표본은 전체를 대표하는 대표성을 갖도록 만들어져야한다. 표본 추출은 크게 두 가지 섹션으로 나눈다 1. 확률적 표본 추출- 단순무작위 표본 추출가장 기본적인 추출 방법으로, 모집단의 각 사례의 수를 일정한 규칙에 의해 균등하게 기계적으로 뽑아내는 방법주로 컴퓨터나 난수표 등을 이용, 표본의 크기가 작을 경우 표본 특성이 왜곡될 우려가 있다.- 체..
척도는 데이터를 측정하는 도구로서, 일정한 규칙에 따라 측정 대상에 적용하는 일련의 기호나 숫자를 말함 척도의 종류 1. 명목척도 수 또는 순서의 개념과 상관없이 이름만 붙여지는 척도 예시) 설문 문항 남자 -> 1, 여자 -> 2로 선택을 할 시에, 남자와 여자는 1,2의 숫자와는 전혀 상관이 없음 2. 서열척도 숫자 혹은 수치와는 관련이 없지만 단순하게 순서를 구분하기 위해 만들어진 척도 예시) 마라톤 경기의 순위 1,2,3위 이지만 3위 - 2위 = 1위가 아니듯이 서열간 차이는 일정하지 않음 3. 등간척도 측정 된 자료들 간에 더하기와 빼기가 가능한 척도 그러나 무를 의미하는 0값이 존재하지 않는 척도이므로 곱하기와 나누기는 의미가 없음 예시) 섭씨 15도는 0도보다 15도가 높은 온도이지만 0도..
가설 "기존에 보편적으로 옳다고 믿어져온 주장" 에 대해 두가지 측면이 존재한다. 1. 그 주장은 맞다 2. 그 주장은 사실이 아니다 우리는 어떠한 문제에 대해 이를 검증하기 위해 미리 세우는 결론을 가설(hypothesis)라고 부른다. 귀무가설 (null hypothesis) - 보편적으로 믿어지는 가설 - 일반적으로 받아지는 가설이기 때문에 귀무, 영(null) 논문에서는 H0으로 표기한다. 대립가설 (antihypothesis) - 기존 주장의 문제점을 발견하여 그에 반하는 새로운 주장을 하는 가설을 의미 - 기존 주장에 대립하는 의미로 대립가설이며 연구가설로도 불려짐 - 연구보고서에는 H1으로 표기 - 귀무가설을 기각하고 연구가설을 채택한다 라는 표현을 사용 예시 - H0: 캔에 표기되어 있는 ..
Introduction 정보의 폭발적인 증가로 인해 더욱 발전 된 유저 경험을 제공해주기 위해서 Personalization(개인화)이 중요한 요소가 됨 개인 추천 시스템은 본래 collaborative filtering, content-based recommender based system 그리고 두 추천 시스템을 섞은 hybrid recommender system으로 분류 딥러닝 추천 시스템에 적용되면서 전통적인 추천 시스템에서 해결 못하는 문제점을 해결해주며 높은 질의 추천 결과물을 만들고 있음 Pervasive and ubiquity of deep learning in recommender systems Netflix, Youtube, Yahoo 등 많은 기업에서 딥러닝 추천 시스템을 적용해서 기..
Abstract NMF는 다변량 데이터의 분해에 유용하게 사용된다. 두 개의 multiplicative algorithms가 존재 Least square error을 최소화 generalized Kullback-Leibler divergence 최소화 Non-negative matrix factorization (1) V= WH V 매트릭스는 데이터셋과 동일한 구조로 n 차원의 벡터와 m 개의 샘플로 구성이 되어 있다. H 매트릭스는 n x r 그리고 W 매트릭스는 r x m 으로 구성이 되어 있으며 r은 기본적으로 n, m 보다 작다. (1) Iteration을 돌면서 W와 H값을 업데이트하는 알고리즘은 2개가 있다. 적용하기 용이하고 convergence property가 보장되어 있어 실용적인 측면..

Confusion Matrix는 분류 모델에서 가장 많이 쓰이고 있는 지표입니다. 모델이 정답을 맞춘 케이스 TP - 정답이 Positive이고 분류 모델이 Positive으로 예측한 케이스 TN - 정답이 Negative이고 분류 모델이 Negative으로 예측한 케이스 모델이 정답을 못 맞춘 케이스 FP - 정답이 Positive이고 분류 모델이 Negative으로 예측한 케이스 FN - 정답이 Negative이고 분류 모델이 Positive으로 예측한 케이스 1. 정확도(Accuracy) 측정 정확도는 실제 정답을 바르게 예측한 비율 정확도 = (TP+TN) / (TP+FP+FN+TN) 2. 정밀도(Precision) 측정 정밀도는 모델이 Positive으로 예측한 값이 실제 Positive인 비율..
- Total
- Today
- Yesterday
- 분류 모델 성능 평가지표
- 통계 분류 검증
- 독립표본 t 검정
- 추천시스템논문
- 대응표본 검정
- featureextraction
- 주식종목예측시나리오
- wordembedding
- 데이터분석 척도
- 딥러닝추천시스템
- 비전공자데이터분석
- 텍스트분석
- instantgratification
- kaggle
- 국립국어원대회
- 표본 추출
- featureselection
- 자연어처리공모전
- 일표본 검정
- 국어정보처리시스템경진대회2020
- denserepresentation
- 데이터분석공모전
- significant level
- 딥러닝추천모델
- 빅데이터공모전
- kaggle competition
- 캐글
- recommendationsystem
- 통계 척도
- 데이터분석
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |