티스토리 뷰
최근접 이웃은 거리를 이용해서 점들간의 유사도 측정을 통해 분류하는 분석 기법
장점
1. 단순하며 효율적
2. 데이터 분산에 대한 측정 기준을 만들 필요가 없음
3. 빠른 훈련 단계
단점
1. 모델 미생성
2. 느린 분류와 많은 메모리를 사용
3. 명목형 속성과 결측 데이터는 추가적인 처리가 필요함
예제를 통해서 더 자세히 알아보겠습니다.
재료 |
단맛 |
아삭거림 |
음식 종류 |
포도 |
8 |
3 |
과일 |
초록콩 |
3 |
7 |
야채 |
땅콩 |
3 |
6 |
단백질 |
오렌지 |
7 |
3 |
과일 |
토마토 |
6 |
4 |
? |
음식 재료의 단맛과 아삭거림을 1-10의 수치로 표현한 데이터입니다.
이를 토대로 토마토를 KNN을 사용해서 어떤 음식 종류인지 분류를 해보도록 하겠습니다.
거리 계산: 최근접 이웃을 구하기 위해 거리 함수나 두 인스턴스 사이의 유사도를 측정하는 공식이 필요
유클리드 거리 공식
유클리드 거리 공식을 적용했을때,
토마토 = p, 포도 q일 때의 거리
토마토 = p, 초록콩 q일 때의 거리 : 4.2
토마토 = p, 땅콩 q일 때의 거리 : 3.6
토마토 = p, 오렌지 q일 때의 거리 : 1.4
4개의 거리를 구했을 때 토마토의 근접한 거리 순으로 나열하면
- 오렌지
- 포도
- 땅콩
- 초록콩
k=1 (가장 근접한 하나의 점에 의해 분류)
- 오렌지 -> 오렌지가 과일이 토마토는 과일으로 분류
k=3 (가장 근접한 3개의 점의 다수결에 의해 분류)
오렌지, 포도, 땅콩 -> 3개 중 2개가 과일이므로 토마토는 과일으로 분류
- K가 크면 데이터 변화량은 줄어들지만, 중요한 패턴을 무시할 수 있음
- K가 작으면 노이지 데이터나 이상치에 영향을 받을 가능성이 큼
-> K는 보통 3과 10 사이, 훈련데이터 개수의 제곱근으로 설정 (훈련데이터=15개 -> k=4)
위 그림은 K를 잘못 설정할 경우 옳지 않은 데이터로 분류가 될 수 있음을 보여주는 그래프입니다. 빨간 점을 새로운 데이터라고 가정을 하고 파란 점은 과일, 하얀 점을 야채라고 가정했을 때 K를 5로 놓으면 빨간 점은 과일로 분류가 되나 K를 9로 설정하면 야채라고 분류가 됩니다. 이처럼, K를 너무 높게 잡거나 (혹은 낮게 잡으면) 분류가 잘못 될 가능성이 큽니다.
일부 속성이 다른 속성보다 현저하게 크면 거리 측정에 문제가 생겨 분류가 이상하게 될 수가 있어 0과 1 사이의 범위의 값으로 변환하는 최소-최대 정규화를 사용합니다.
'데이터분석 이론' 카테고리의 다른 글
Text Analysis - Bag of Words, TF-IDF (0) | 2019.06.15 |
---|---|
RANSAC (Random Sample Consensus) (0) | 2019.05.19 |
통계 데이터의 종류와 수집 방법 (0) | 2019.05.19 |
Feature Selection (Filtering, Wrapper, Embedded Methods) (0) | 2019.05.18 |
Feature Extraction (PCA & LDA) (0) | 2019.05.18 |
- Total
- Today
- Yesterday
- kaggle competition
- featureextraction
- 대응표본 검정
- 텍스트분석
- 통계 척도
- 데이터분석
- 표본 추출
- recommendationsystem
- 캐글
- 자연어처리공모전
- 통계 분류 검증
- 데이터분석 척도
- kaggle
- 주식종목예측시나리오
- 국어정보처리시스템경진대회2020
- 일표본 검정
- 딥러닝추천시스템
- denserepresentation
- 추천시스템논문
- 빅데이터공모전
- 딥러닝추천모델
- significant level
- featureselection
- 데이터분석공모전
- 국립국어원대회
- wordembedding
- 분류 모델 성능 평가지표
- 독립표본 t 검정
- 비전공자데이터분석
- instantgratification
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |