- 계층적 군집(Agglomerative/Ward): 덴드로그램으로 군집 수를 시각적으로 결정. 비구형 클러스터에도 비교적 유연하지만 대용량엔 느릴 수 있음.
- DBSCAN / HDBSCAN: 밀도 기반. 임의 모양 클러스터·노이즈 탐지 강함, K 불필요. 밀도 차이가 큰 데이터는 파라미터 튜닝 난이도↑.
- Mean Shift: 모드(밀도봉우리) 탐색. K 불필요, 계산량 큰 편.
- GMM(가우시안 혼합, EM): 소프트 클러스터링(각 군집 확률 제공). 타원형 클러스터에 강함, K 필요(BIC/AIC로 선택 가능).
- 스펙트럴 클러스터링: 그래프 라플라시안 기반. 비선형/구불구불한 경계에 강함, 중소규모에 적합.
- Affinity Propagation: 대표점(exemplar) 자동 선택, K 불필요. 민감하고 느릴 수 있음.
- BIRCH: 대규모 데이터 스트리밍/요약에 유리.
- K-medoids / K-modes / K-prototypes: 평균 대신 중심표본(메도이드) 사용→이상치에 강함 / 범주형 전용 / 혼합형(수치+범주).
차원축소·시각화(잠재공간)
- PCA / Kernel PCA: 선형/비선형 변환으로 차원 축소.
- t-SNE / UMAP: 시각화 특화(클러스터 분리감 확인용). 거리 보존 목적이 아니라 “클러스터링 자체”엔 부적합.
- Isomap / LLE / Laplacian Eigenmaps: 매니폴드 러닝(휘어진 다양체 복원).
밀도추정·이상치 탐지
- KDE(커널 밀도 추정): 분포 추정.
- Isolation Forest: 트리 기반 이상치 탐지. 스케일·고차원에 비교적 강함.
- One-Class SVM: 정상영역 경계 학습(커널). 스케일·파라미터 민감.
- LOF(Local Outlier Factor): 주변 이웃 대비 밀도 낮은 점 탐지.
토픽 모델링·행렬분해
- LDA: 문서-토픽 확률 모델.
- NMF: 부분기반 분해(해석 용이), 텍스트/이미지에 유용.
- SVD/Truncated SVD(LSA): 희소 텍스트 차원축소·잠재의미 추출.
- (비)클러스터링 동시화: 스펙트럴 바이클러스터링, 코클러스터링.
그래프 군집(커뮤니티 탐지)
- Louvain / Leiden: 대규모 네트워크 모듈성 최대화 기반 군집.
표현학습·생성모델(비지도/자가지도)
- 오토인코더(AE) / VAE: 잠재공간 학습→그 위에서 클러스터링.
- GAN/확산모델: 데이터 분포 생성(표현학습과 결합해 활용).
- 대조학습(예: SimCLR/MoCo): 라벨 없이 특징학습→다운스트림 군집에 사용.
시계열·순차데이터 특화
- HMM(은닉 마코프 모델): 상태분절·시퀀스 클러스터링.
- DTW-K-means / K-shape: 형태 정렬 기반 시계열 군집(tslearn 등).
언제 무엇을 쓸까? (초간단 가이드)
- 클러스터 모양이 구형/비슷한 크기: K-means, GMM
- 임의 모양·노이즈 존재: DBSCAN/HDBSCAN
- K 모르고 덴드로그램으로 결정: 계층적 군집
- 비선형 구조 시각화: UMAP/t-SNE (클러스터링 자체는 다른 알고리즘으로)
- 텍스트 토픽: LDA/NMF
- 이상치 탐지: Isolation Forest / LOF / One-Class SVM
- 아주 큰 데이터: BIRCH, 미니배치 K-means
답글 남기기