naver.HOW data lake by AI

하이브리드 실전

작성자

in"의 한국어 번역은 "안"입니다.

비신경망(전통): 수학/통계 기반 최적화·거리·그래프·분해 기법
예) K-means, 계층군집, DBSCAN/HDBSCAN, GMM(EM), 스펙트럴, BIRCH, PCA/Kernel PCA, t-SNE/UMAP(시각화), LDA/NMF, SVD/LSA, Isolation Forest/LOF, HMM, 바이·코클러스터링, Louvain/Leiden
신경망(딥러닝): 표현학습을 통해 **특징을 ‘학습’**해서 활용
예) 오토인코더/변분오토인코더(VAE), MAE, 대조학습(SimCLR/MoCo/BYOL), DeepCluster/DEC/IDEC, GAN(이상치: AnoGAN), 확산모델, 정규화 플로우(RealNVP/Glow), 그래프 오토인코더(GAE/VGAE), Deep SVDD

경계가 흐려지는 지점(요즘 실전)

딥 임베딩 → 전통 군집: BERT/CLIP/SimCLR/오토인코더로 임베딩을 뽑고 K-means/DBSCAN으로 군집.
오토인코더 잠재공간에서 군집: AE/VAE로 노이즈 제거·차원축소 → 잠재벡터에 군집(DEC/IDEC).
이상치 탐지: 재구성 오차(AE), likelihood(VAE), Deep SVDD vs Isolation Forest/LOF 비교 사용.

언제 무엇을?

표/수치(탭룰러), 데이터 적음/해석 중요 → 전통(계층군집, GMM, DBSCAN, Isolation Forest).
이미지/텍스트/오디오 등 고차·비선형 → 사전학습 임베딩 + 전통 군집이 기본값.
정답 라벨 거의 없음 + 대량 데이터 → 대조학습/오토인코더 기반 표현학습(+ 간단 군집).
자원 제한 → 전통 기법이 빠르고 튠이 쉬움.
성능 최우선 → 딥 임베딩 활용(또는 전용 딥 클러스터링) + 전통 지표로 검증(ARI/NMI/Silhouette).

코멘트

답글 남기기 응답 취소

더 많은 게시물