naver.HOW data lake by AI

EfficientNetV2-M 기반 분류 모델 vs 사용자 정의 CNN 비교 및 정밀 분류 전략

작성자

in"의 한국어 번역은 "안"입니다.

1. 모델 아키텍처 비교

✅ EfficientNetV2-M

사전 학습된 ImageNet 기반 고성능 백본 모델
구성: EfficientNetV2M(include_top=False) → GlobalAveragePooling2D → Dense(softmax)
전이학습을 통해 빠른 수렴 및 우수한 일반화 능력 확보

✅ 사용자 정의 CNN

직접 설계한 간단한 ConvNet 구조 (예: Conv → MaxPooling → Dense)
파라미터 수 적고, 빠르게 학습되며 구조 이해에 용이
사전학습 없음 (scratch부터 학습), 일반화 성능 제한적

2. 학습 성능 및 용도 차이

항목	EfficientNetV2-M	사용자 정의 CNN
성능	고정밀, 실전 배포 가능	중간 또는 낮은 성능
일반화 능력	뛰어남	데이터셋 의존도 큼
학습 속도	느림	빠름
전이학습	가능	불가능
적합 용도	상용 서비스, 대규모 분류	실험, 교육, 소규모 문제

3. 당근 vs 당근 모양 연필 분류 문제

EfficientNetV2-M을 사용해도 실제 당근과 당근 모양 연필처럼 형상이 유사한 비슷한 객체들을 잘 구분하지 못하는 경우 발생.

이유:

CNN 기반 모델은 시각적 형상(Shape) 중심의 특징 학습을 주로 하므로,
**의미적 차이(Semantic Difference)**가 아닌 형상 유사성에 기반해 예측하는 경향이 있음.

4. 해결을 위한 정밀 분류 전략

✅ 1) 클래스 정의 재구성

기존의 O/R 라벨 대신:
- 당근, 당근 모양 연필, 기타 채소, 기타 필기구 등으로 세분화 학습
- 후처리에서 당근 → O, 당근 모양 연필 → R로 통합 라벨 구성

✅ 2) 하드 샘플 집중 학습 (Hard Example Mining)

오분류 사례(당근 vs 당근 연필)를 선별하고 반복 학습
모델이 헷갈리는 샘플을 위주로 Loss를 더 강하게 반영

✅ 3) CLIP 기반 분류

OpenAI의 CLIP 모델 활용
- “당근” 이미지 vs “당근 모양 연필” 프롬프트 의미 유사도 비교
의미 기반 분류로 형상 중심 CNN의 한계 보완

✅ 4) 데이터셋 보강

당근 모양 연필의 다양한 조도, 배경, 각도에서의 이미지 확보
유사 객체가 많을수록 더 강한 판별 기준 학습 가능

✅ 5) 2단계 분류 파이프라인

1단계: 일반 EfficientNet 분류기로 coarse 분류
2단계: 당근류로 추정된 샘플만 정밀 모델로 다시 분류
- 예: Attention 기반 작은 분류기, Siamese Network 등

✅ 6) 시각화 기반 해석

Grad-CAM, Score-CAM 사용하여 모델이 어디를 보고 분류했는지 시각화
실제 당근 이미지와 당근 연필 이미지의 활성 영역 비교

5. 결론

정밀한 객체 분류 문제는 단일 CNN 계열 모델로 해결하기에 한계가 있음
하드 샘플 학습, 의미 기반 분류(CLIP), 데이터셋 보강, 2단계 파이프라인 등 종합 전략이 필요함
모델이 무엇을 보고, 어떤 기준으로 판단하는가에 대한 해석도 중요함

코멘트

답글 남기기 응답 취소

더 많은 게시물