naver.HOW data lake by AI

클러스터링(군집화)

작성자

in"의 한국어 번역은 "안"입니다.

계층적 군집(Agglomerative/Ward): 덴드로그램으로 군집 수를 시각적으로 결정. 비구형 클러스터에도 비교적 유연하지만 대용량엔 느릴 수 있음.
DBSCAN / HDBSCAN: 밀도 기반. 임의 모양 클러스터·노이즈 탐지 강함, K 불필요. 밀도 차이가 큰 데이터는 파라미터 튜닝 난이도↑.
Mean Shift: 모드(밀도봉우리) 탐색. K 불필요, 계산량 큰 편.
GMM(가우시안 혼합, EM): 소프트 클러스터링(각 군집 확률 제공). 타원형 클러스터에 강함, K 필요(BIC/AIC로 선택 가능).
스펙트럴 클러스터링: 그래프 라플라시안 기반. 비선형/구불구불한 경계에 강함, 중소규모에 적합.
Affinity Propagation: 대표점(exemplar) 자동 선택, K 불필요. 민감하고 느릴 수 있음.
BIRCH: 대규모 데이터 스트리밍/요약에 유리.
K-medoids / K-modes / K-prototypes: 평균 대신 중심표본(메도이드) 사용→이상치에 강함 / 범주형 전용 / 혼합형(수치+범주).

차원축소·시각화(잠재공간)

PCA / Kernel PCA: 선형/비선형 변환으로 차원 축소.
t-SNE / UMAP: 시각화 특화(클러스터 분리감 확인용). 거리 보존 목적이 아니라 “클러스터링 자체”엔 부적합.
Isomap / LLE / Laplacian Eigenmaps: 매니폴드 러닝(휘어진 다양체 복원).

밀도추정·이상치 탐지

KDE(커널 밀도 추정): 분포 추정.
Isolation Forest: 트리 기반 이상치 탐지. 스케일·고차원에 비교적 강함.
One-Class SVM: 정상영역 경계 학습(커널). 스케일·파라미터 민감.
LOF(Local Outlier Factor): 주변 이웃 대비 밀도 낮은 점 탐지.

토픽 모델링·행렬분해

LDA: 문서-토픽 확률 모델.
NMF: 부분기반 분해(해석 용이), 텍스트/이미지에 유용.
SVD/Truncated SVD(LSA): 희소 텍스트 차원축소·잠재의미 추출.
(비)클러스터링 동시화: 스펙트럴 바이클러스터링, 코클러스터링.

그래프 군집(커뮤니티 탐지)

Louvain / Leiden: 대규모 네트워크 모듈성 최대화 기반 군집.

표현학습·생성모델(비지도/자가지도)

오토인코더(AE) / VAE: 잠재공간 학습→그 위에서 클러스터링.
GAN/확산모델: 데이터 분포 생성(표현학습과 결합해 활용).
대조학습(예: SimCLR/MoCo): 라벨 없이 특징학습→다운스트림 군집에 사용.

시계열·순차데이터 특화

HMM(은닉 마코프 모델): 상태분절·시퀀스 클러스터링.
DTW-K-means / K-shape: 형태 정렬 기반 시계열 군집(tslearn 등).

언제 무엇을 쓸까? (초간단 가이드)

클러스터 모양이 구형/비슷한 크기: K-means, GMM
임의 모양·노이즈 존재: DBSCAN/HDBSCAN
K 모르고 덴드로그램으로 결정: 계층적 군집
비선형 구조 시각화: UMAP/t-SNE (클러스터링 자체는 다른 알고리즘으로)
텍스트 토픽: LDA/NMF
이상치 탐지: Isolation Forest / LOF / One-Class SVM
아주 큰 데이터: BIRCH, 미니배치 K-means

코멘트

답글 남기기 응답 취소

더 많은 게시물