티스토리 뷰

데이터분석 이론

통계 - 1. 가설과 유의 수준

데이터사이엔티스트 2021. 3. 5. 03:03

가설

 

"기존에 보편적으로 옳다고 믿어져온 주장" 에 대해 두가지 측면이 존재한다.

1. 그 주장은 맞다

2. 그 주장은 사실이 아니다

 

우리는 어떠한 문제에 대해 이를 검증하기 위해 미리 세우는 결론을 가설(hypothesis)라고 부른다.

 

귀무가설 (null hypothesis)

- 보편적으로 믿어지는 가설

- 일반적으로 받아지는 가설이기 때문에 귀무, 영(null) 논문에서는 H0으로 표기한다.

 

대립가설 (antihypothesis)

- 기존 주장의 문제점을 발견하여 그에 반하는 새로운 주장을 하는 가설을 의미

- 기존 주장에 대립하는 의미로 대립가설이며 연구가설로도 불려짐

- 연구보고서에는 H1으로 표기

- 귀무가설을 기각하고 연구가설을 채택한다 라는 표현을 사용

 

예시

- H0: 캔에 표기되어 있는 300ml가 맞다.

- H1: 캔에 표기되어 있는 300ml가 맞다고 할 수 없다.

 

유의 수준

귀무가설에 대한 대립가설을 세우고, 이에 대해 채택/기각에 대한 결과를 확인

- 이때 연구자가 세운 '대립가설'을 채택/기각할 것인가를 판단하는 기준을 유의수준(significant level)이라 함

- 유의수준은 통상 0.1% (0.001), 1% (0.01), 5% (0.05)를 많이 사용하는데, 연구의 특성에 따라 상이하지만 통상 5%의

기준을 가장 많이 사용

 

유의 확률은 p 값(p value)로 표현이 되는데 이는 0~1 사이의 값을 가진다.

 

유의 수준을 0.05로 가정을 한다면,

 

p value = 0.03 -> 귀무가설 기각, 대립가설 채택

p value = 0.07 -> 귀무가설 채택, 대립가설 기각

 

t 검정, anova, 회귀분석, 교차분석 등 다양한 지표에서 사용되는 유의 수준이 p value이다.

 

t 값 p 값 표시 방법 해석
절대값 t >= 1.96 p < 0.05 * 유의하다
절대값 t >= 2.58 p < 0.01 ** 유의하다.
절대값 t >= 3.30 p < 0.001 *** 유의하다.