“모델 정확도가 높은데도 성능이 믿음직스럽지 않다고 느낀 적 있으신가요?”
딥러닝에서 accuracy
는 가장 널리 쓰이는 성능 지표입니다. 특히 전이학습(transfer learning)에서는 사전학습된 모델을 새로운 작업에 적용할 때 정확도를 기준으로 성능을 평가하곤 하죠.
하지만 여기서 한 번쯤 질문해봐야 합니다.
전이학습에서 우리가 보는
accuracy
는
과연 **타당도(validity)**일까요, 아니면 **신뢰도(reliability)**일까요?
🎯 타당도와 신뢰도, 무엇이 다른가요?
심리학, 교육학 등에서 자주 쓰이는 개념이지만, 머신러닝 평가에서도 중요한 기준이 됩니다.
개념 | 설명 | 예시 |
---|---|---|
타당도 (Validity) | 모델이 의도한 작업을 얼마나 잘 수행하는가 | 고양이 vs 개 분류에서 95% 정확도라면 높은 타당도 |
신뢰도 (Reliability) | 같은 입력을 반복적으로 처리할 때 결과가 일관적인가 | 매번 실험할 때마다 accuracy가 비슷하게 나오는가 |
🔍 Accuracy는 ‘타당도’를 측정합니다
전이학습에서 사전 학습된 모델을 새로운 데이터셋에 fine-tuning한 후 얻는 accuracy
는 그 모델이 해당 task를 제대로 수행하는지를 보여주는 지표, 즉 **타당도(validity)**에 해당합니다.
예를 들어, ImageNet으로 사전학습된 ResNet 모델을 의료 이미지 분류에 전이학습한 후 90% 정확도를 보였다면:
- → 이 모델은 의료 이미지 분류 작업에도 “타당하다”고 판단할 수 있습니다.
🤔 신뢰도는 어떻게 볼 수 있을까?
전이학습에서의 신뢰도는 다음과 같은 방식으로 판단합니다:
- 반복 실험 (Repeated trials)
→ 학습을 여러 번 반복했을 때 accuracy가 크게 달라지지 않으면 신뢰도가 높다고 봅니다. - 교차 검증 (Cross-validation)
→ Fold마다 정확도가 큰 차이를 보이지 않는다면 일관성이 있다고 판단합니다. - Confusion Matrix, F1-score 등 보조 지표 활용
→ 특정 클래스에만 과도하게 편향되어 있다면, 신뢰도가 낮다고 볼 수 있습니다. - Validation Curve, Learning Curve 분석
→ 불안정한 학습 패턴(과적합/과소적합)은 낮은 신뢰도를 시사합니다.
✅ 요약: 전이학습 성능평가, 이렇게 보세요
지표 | 해석 | 타당도 or 신뢰도 |
---|---|---|
Accuracy | 해당 작업을 잘 수행하고 있는가 | 타당도 |
실험 반복 후 분산 | 결과가 얼마나 일관적인가 | 신뢰도 |
Confusion Matrix 분석 | 특정 클래스에만 강한가 | 신뢰도 보완 |
Cross-validation | Fold마다 정확도가 안정적인가 | 신뢰도 |
📌 마무리하며
단 하나의 accuracy 수치만으로 모델의 “좋고 나쁨”을 판단하기엔 한계가 있습니다. 전이학습에서는 특히 다음 두 가지를 함께 고려해야 합니다:
- 타당도: 내가 원하는 작업에 맞는가?
- 신뢰도: 결과가 일관적으로 재현되는가?
딥러닝의 성능 평가도 결국은 정확성과 신뢰성의 균형이 핵심입니다.