티스토리 뷰

데이터분석 이론

통계 데이터의 종류와 수집 방법

데이터사이엔티스트 2019. 5. 19. 20:51

1.1 통계 데이터의 종류 
1. 명목척도 (nominal scale) 
- 명목척도는 어떤 대상에 숫자나 기호를 부여함으로써 범주나 종류를 분류하기 위해 사용 
예시) 성별 남자는 1, 여자는 2 (범주적 개념으로 사용) 

2. 서열척도 (ordinal scale) 
- 특정 성격을 갖고 있는 정도에 따라 서열화시켜 수치를 부여하는 측정기준 
예시) 매우 불만족 (1), 불만족 (2), 보통 (3), 만족 (4), 매우 만족 (5) 

3. 등간척도 (interval scale) 
- 측정결과가 숫자로 표현되고 척도간의 간격이 일정한 측정기준 
예시) 온도의 단위가 섭씨나 화씨는 표준화된 측정기준으로 1도간의 간격이 일정하지만 40도가 20도일때보다 더운 정도가 2배라고 말할 수는 없음 

4. 비율척도 (ratio scale) 
- 특성에 부여된 수치 자체에 의미가 있는 척도 
예시) 판매량, 생산비용, 코일의 강도 등 숫자로 관측 된 수치가 실제적인 수량적 의미를 가지고 있음 

1.2 데이터의 수집방법 
1. 단순무작위추출법 (simple random sampling) 
- 모든 대상 각각이 표본으로 선택될 확률이 동일한 추출방법 
난수표 (random number table)를 이용하여 표본을 추출 

2. 계통추출법 (systematic sampling) 
- 단순무작위추출법의 변형된 형태 
모든 원소들에게 일련번호 부여 -> 순서대로 나열 후 첫 구간에서 임의로 한 표본을 뽑은 후 K번째 표본을 뽑는 방식 

3. 층화무작위추출법 (stratified random sampling) 
- 모집단이 이질적인 경우 특정기준에 따라 동질적인 몇개의 집단/층으로 분류, 각 층에서 무작위로 적절한 수의 표본을 선택하는 방법 

4. 집락추출법 (cluster sampling) 
- 모집단이 여러 개의 집락(cluster)이라는 하위집단으로 구성된다고 보고 전체 집락 중 일부를 무작위로 선택한 후 편의상 선택된 집락의 모두를 표본으로 조사하는 방법 

1.3 기술통계치 
1.3.1 데이터의 중심척도 
1. 평균 (mean) 
2. 중앙값 (median) 
- n 개의 관측치를 크기순으로 배열했을 때 중앙의 위치에 놓이게 되는 값 
n이 홀수일 때: (n+1)/2  
n이 짝수일 때: (n/2)+(n/2+1))/2 
3. 최빈값 (mode) 
- 가장 빈번하게 나타나는 값 

1.3.2 데이터의 산포척도 
1. 범위 (range) 
- 최대값과 최소값의 차이를 의미 

2. 사분위범위 (inter-quartile range; IQR) 
- 데이터를 크기순으로 나열한 후 4등분할 경우 각각 4등분되는 위치의 값을 의미 

3. 분산 (variance) 
- 평균과의 거리를 제곱하여 합한 후 (n-1)으로 나눈 것 

4. 표준 편차 
- 분산에 제곱근을 취한 것이며 산포의 척도로 가장 널리 사용된다.