EfficientNetV2-M 기반 분류 모델 vs 사용자 정의 CNN 비교 및 정밀 분류 전략


1. 모델 아키텍처 비교

✅ EfficientNetV2-M

  • 사전 학습된 ImageNet 기반 고성능 백본 모델
  • 구성: EfficientNetV2M(include_top=False)GlobalAveragePooling2DDense(softmax)
  • 전이학습을 통해 빠른 수렴 및 우수한 일반화 능력 확보

✅ 사용자 정의 CNN

  • 직접 설계한 간단한 ConvNet 구조 (예: Conv → MaxPooling → Dense)
  • 파라미터 수 적고, 빠르게 학습되며 구조 이해에 용이
  • 사전학습 없음 (scratch부터 학습), 일반화 성능 제한적

2. 학습 성능 및 용도 차이

항목EfficientNetV2-M사용자 정의 CNN
성능고정밀, 실전 배포 가능중간 또는 낮은 성능
일반화 능력뛰어남데이터셋 의존도 큼
학습 속도느림빠름
전이학습가능불가능
적합 용도상용 서비스, 대규모 분류실험, 교육, 소규모 문제

3. 당근 vs 당근 모양 연필 분류 문제

EfficientNetV2-M을 사용해도 실제 당근과 당근 모양 연필처럼 형상이 유사한 비슷한 객체들을 잘 구분하지 못하는 경우 발생.

이유:

  • CNN 기반 모델은 시각적 형상(Shape) 중심의 특징 학습을 주로 하므로,
  • **의미적 차이(Semantic Difference)**가 아닌 형상 유사성에 기반해 예측하는 경향이 있음.

4. 해결을 위한 정밀 분류 전략

✅ 1) 클래스 정의 재구성

  • 기존의 O/R 라벨 대신:
    • 당근, 당근 모양 연필, 기타 채소, 기타 필기구 등으로 세분화 학습
    • 후처리에서 당근 → O, 당근 모양 연필 → R로 통합 라벨 구성

✅ 2) 하드 샘플 집중 학습 (Hard Example Mining)

  • 오분류 사례(당근 vs 당근 연필)를 선별하고 반복 학습
  • 모델이 헷갈리는 샘플을 위주로 Loss를 더 강하게 반영

✅ 3) CLIP 기반 분류

  • OpenAI의 CLIP 모델 활용
    • “당근” 이미지 vs “당근 모양 연필” 프롬프트 의미 유사도 비교
  • 의미 기반 분류로 형상 중심 CNN의 한계 보완

✅ 4) 데이터셋 보강

  • 당근 모양 연필의 다양한 조도, 배경, 각도에서의 이미지 확보
  • 유사 객체가 많을수록 더 강한 판별 기준 학습 가능

✅ 5) 2단계 분류 파이프라인

  • 1단계: 일반 EfficientNet 분류기로 coarse 분류
  • 2단계: 당근류로 추정된 샘플만 정밀 모델로 다시 분류
    • 예: Attention 기반 작은 분류기, Siamese Network 등

✅ 6) 시각화 기반 해석

  • Grad-CAM, Score-CAM 사용하여 모델이 어디를 보고 분류했는지 시각화
  • 실제 당근 이미지와 당근 연필 이미지의 활성 영역 비교

5. 결론

  • 정밀한 객체 분류 문제는 단일 CNN 계열 모델로 해결하기에 한계가 있음
  • 하드 샘플 학습, 의미 기반 분류(CLIP), 데이터셋 보강, 2단계 파이프라인 등 종합 전략이 필요함
  • 모델이 무엇을 보고, 어떤 기준으로 판단하는가에 대한 해석도 중요함

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다