클러스터링(군집화)

  • 계층적 군집(Agglomerative/Ward): 덴드로그램으로 군집 수를 시각적으로 결정. 비구형 클러스터에도 비교적 유연하지만 대용량엔 느릴 수 있음.
  • DBSCAN / HDBSCAN: 밀도 기반. 임의 모양 클러스터·노이즈 탐지 강함, K 불필요. 밀도 차이가 큰 데이터는 파라미터 튜닝 난이도↑.
  • Mean Shift: 모드(밀도봉우리) 탐색. K 불필요, 계산량 큰 편.
  • GMM(가우시안 혼합, EM): 소프트 클러스터링(각 군집 확률 제공). 타원형 클러스터에 강함, K 필요(BIC/AIC로 선택 가능).
  • 스펙트럴 클러스터링: 그래프 라플라시안 기반. 비선형/구불구불한 경계에 강함, 중소규모에 적합.
  • Affinity Propagation: 대표점(exemplar) 자동 선택, K 불필요. 민감하고 느릴 수 있음.
  • BIRCH: 대규모 데이터 스트리밍/요약에 유리.
  • K-medoids / K-modes / K-prototypes: 평균 대신 중심표본(메도이드) 사용→이상치에 강함 / 범주형 전용 / 혼합형(수치+범주).

차원축소·시각화(잠재공간)

  • PCA / Kernel PCA: 선형/비선형 변환으로 차원 축소.
  • t-SNE / UMAP: 시각화 특화(클러스터 분리감 확인용). 거리 보존 목적이 아니라 “클러스터링 자체”엔 부적합.
  • Isomap / LLE / Laplacian Eigenmaps: 매니폴드 러닝(휘어진 다양체 복원).

밀도추정·이상치 탐지

  • KDE(커널 밀도 추정): 분포 추정.
  • Isolation Forest: 트리 기반 이상치 탐지. 스케일·고차원에 비교적 강함.
  • One-Class SVM: 정상영역 경계 학습(커널). 스케일·파라미터 민감.
  • LOF(Local Outlier Factor): 주변 이웃 대비 밀도 낮은 점 탐지.

토픽 모델링·행렬분해

  • LDA: 문서-토픽 확률 모델.
  • NMF: 부분기반 분해(해석 용이), 텍스트/이미지에 유용.
  • SVD/Truncated SVD(LSA): 희소 텍스트 차원축소·잠재의미 추출.
  • (비)클러스터링 동시화: 스펙트럴 바이클러스터링, 코클러스터링.

그래프 군집(커뮤니티 탐지)

  • Louvain / Leiden: 대규모 네트워크 모듈성 최대화 기반 군집.

표현학습·생성모델(비지도/자가지도)

  • 오토인코더(AE) / VAE: 잠재공간 학습→그 위에서 클러스터링.
  • GAN/확산모델: 데이터 분포 생성(표현학습과 결합해 활용).
  • 대조학습(예: SimCLR/MoCo): 라벨 없이 특징학습→다운스트림 군집에 사용.

시계열·순차데이터 특화

  • HMM(은닉 마코프 모델): 상태분절·시퀀스 클러스터링.
  • DTW-K-means / K-shape: 형태 정렬 기반 시계열 군집(tslearn 등).

언제 무엇을 쓸까? (초간단 가이드)

  • 클러스터 모양이 구형/비슷한 크기: K-means, GMM
  • 임의 모양·노이즈 존재: DBSCAN/HDBSCAN
  • K 모르고 덴드로그램으로 결정: 계층적 군집
  • 비선형 구조 시각화: UMAP/t-SNE (클러스터링 자체는 다른 알고리즘으로)
  • 텍스트 토픽: LDA/NMF
  • 이상치 탐지: Isolation Forest / LOF / One-Class SVM
  • 아주 큰 데이터: BIRCH, 미니배치 K-means

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다