하이브리드 실전

  • 비신경망(전통): 수학/통계 기반 최적화·거리·그래프·분해 기법
    예) K-means, 계층군집, DBSCAN/HDBSCAN, GMM(EM), 스펙트럴, BIRCH, PCA/Kernel PCA, t-SNE/UMAP(시각화), LDA/NMF, SVD/LSA, Isolation Forest/LOF, HMM, 바이·코클러스터링, Louvain/Leiden
  • 신경망(딥러닝): 표현학습을 통해 **특징을 ‘학습’**해서 활용
    예) 오토인코더/변분오토인코더(VAE), MAE, 대조학습(SimCLR/MoCo/BYOL), DeepCluster/DEC/IDEC, GAN(이상치: AnoGAN), 확산모델, 정규화 플로우(RealNVP/Glow), 그래프 오토인코더(GAE/VGAE), Deep SVDD

경계가 흐려지는 지점(요즘 실전)

  • 딥 임베딩 → 전통 군집: BERT/CLIP/SimCLR/오토인코더로 임베딩을 뽑고 K-means/DBSCAN으로 군집.
  • 오토인코더 잠재공간에서 군집: AE/VAE로 노이즈 제거·차원축소 → 잠재벡터에 군집(DEC/IDEC).
  • 이상치 탐지: 재구성 오차(AE), likelihood(VAE), Deep SVDD vs Isolation Forest/LOF 비교 사용.

언제 무엇을?

  • 표/수치(탭룰러), 데이터 적음/해석 중요 → 전통(계층군집, GMM, DBSCAN, Isolation Forest).
  • 이미지/텍스트/오디오 등 고차·비선형사전학습 임베딩 + 전통 군집이 기본값.
  • 정답 라벨 거의 없음 + 대량 데이터 → 대조학습/오토인코더 기반 표현학습(+ 간단 군집).
  • 자원 제한 → 전통 기법이 빠르고 튠이 쉬움.
  • 성능 최우선 → 딥 임베딩 활용(또는 전용 딥 클러스터링) + 전통 지표로 검증(ARI/NMI/Silhouette).

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다