데이터분석 이론

Confusion Matrix (분류 모델 성능 평가지표)

데이터사이엔티스트 2020. 12. 17. 01:51

Confusion Matrix는 분류 모델에서 가장 많이 쓰이고 있는 지표입니다.

 

 

모델이 정답을 맞춘 케이스

TP - 정답이 Positive이고 분류 모델이 Positive으로 예측한 케이스 

TN - 정답이 Negative이고 분류 모델이 Negative으로 예측한 케이스

 

모델이 정답을 못 맞춘 케이스

FP - 정답이 Positive이고 분류 모델이 Negative으로 예측한 케이스

FN - 정답이 Negative이고 분류 모델이 Positive으로 예측한 케이스

 

1. 정확도(Accuracy) 측정

정확도는 실제 정답을 바르게 예측한 비율

 

정확도 = (TP+TN) / (TP+FP+FN+TN)

 

2. 정밀도(Precision) 측정

정밀도는 모델이 Positive으로 예측한 값이 실제 Positive인 비율

 

정밀도 = TP / (TP+FP)

 

3. 재현도(Recall) 측정

재현도는 실제값이 Positive인 값들 중 모델이 Positive으로 예측한 비율

 

재현도 = TP / (TP+FN)

 

4. F-1 Score 측정

정밀도(Precision)와 재현도(Recall)의 조화 평균

 

F1-Score = (2 x precision x recall) / (precision+recall)

 

 

Accuracy 대신 정밀도, 재현도, F-1 Score를 구하는 이유는

1. 불균형한 Positive/Negative 비율을 가지고 있는 데이터셋

실제 우리가 사용하고 있는 데이터셋은 PositiveNegative 비율이 일정하지 않다.

Positive, Negative 비율을 균등하게 측정하기 위해서는 단순 정확도보다는 다각도로 분석하는 정밀도, 재현도, F1-Score 측정 방법이 필요하다.

 

2. 분류 모델이 Positive 혹은 Negative 한쪽으로 치우쳐서 예측하는지 확인 필요

Positive - 1000 / Negative - 1000 건으로 가정을 하면,

PositivePositive으로 100% 맞게 예측하고 Negative 50%만 맞게 예측하면 전체적인 정확도는 75%이다.

하지만, Negative인 정답을 반은 Positive, 반은 Negative으로 예측하고 있는 상황이기 때문에,

실제 Negative은 전혀 예측을 잘 못하고 있는 상황이다.

 

이를 방지하기 위해서, 분류 모델은 다각도의 측정 방법론이 필요하다.

 

분류 모델 측정 방법의 중요성 (예시)

실제 예시로, 보험 회사에서 적용된 분류 모델을 말씀드리자면

고객의 프로필을 기반으로 해당 고객이 암이 걸릴지 걸리지 않을지 예측을 해서 틀린 경우를 살펴보면,

 

1. 고객이 암에 걸리지 않지만 고객이 암에 걸린다고 예측할 경우

2. 고객이 암에 걸리지만 고객이 암에 걸리지 않는다고 예측할 경우

 

1번 케이스는 고객이 암에 걸린다고 예측을 하기 때문에 고객으로 유치하지 않을 대상으로 여기기 때문에,

고객이 수납하는 월 보험료 받지 못하는 손해 발생

 

2번 케이스는 고객이 암에 걸리지 않는다고 예측하기 때문에 고객으로 유치를 하지만,

실제 암에 걸려서 치료비를 고객에게 제공해야되는 손해 발생

 

동일하게 틀린 케이스지만, 2번 케이스가 보험사 입장에서는 매우 큰 손해를 발생시키는 상황이다.

결론은 정확도도 중요하지만, 분류 모델 내에서는 정확도가 모델을 평가하는 지표가 되면 좋다고 얘기할수가 없다.