1. Z-score 방식
- 개념: 평균에서 얼마나 떨어져 있는지를 표준편차 기준으로 측정
- 공식: Z=x−μσZ = \frac{x – \mu}{\sigma}
- 기준: |Z| > 2 또는 3이면 이상치
- 특징: 정규분포 가정 필요, 수치형 데이터에 적합
2. IQR 방식 (사분위수 범위)
- 개념: 1사분위(Q1)~3사분위(Q3) 범위를 벗어난 값 탐지
- 공식: IQR=Q3−Q1이상치: x<Q1−1.5×IQR또는x>Q3+1.5×IQRIQR = Q3 – Q1 \\ \text{이상치: } x < Q1 – 1.5 \times IQR \quad \text{또는} \quad x > Q3 + 1.5 \times IQR
- 특징: 정규분포 가정 없음, 이상치에 강건
3. Boxplot 기반
- 개념: IQR 방식 시각화
- 특징: 데이터 분포를 직관적으로 확인 가능
4. Isolation Forest
- 개념: 이상치는 나무에서 쉽게 “격리”되는 특징을 이용
- 특징: 고차원 데이터에 강함, 학습 기반, 빠름
5. One-Class SVM
- 개념: 정상 데이터를 하나의 영역으로 잡고, 그 밖은 이상치로 분류
- 특징: 비선형 경계 가능, 이상치 탐지용으로 설계된 SVM
6. KNN 기반 거리 탐지
- 개념: 이웃 거리(K개)를 기준으로 평균 거리 계산
- 기준: 평균 거리가 큰 데이터 → 이상치
7. LOF (Local Outlier Factor)
- 개념: 지역 밀도 기반 이상치 탐지
- 특징: 주변 밀도가 낮으면 이상치로 판단
8. 시계열 이상치 탐지
- 기법:
- 이동 평균(MA)
- STL 분해 후 잔차 분석
- Prophet 이상치 탐지 기능
- 특징: 계절성, 추세를 고려한 이상치 탐지
9. 딥러닝 기반
- Autoencoder: 재구성 오류가 큰 데이터를 이상치로 간주
- 특징: 복잡한 패턴 학습 가능, 고차원 데이터 처리
🔸 정리표
방식 | 데이터 | 장점 | 주의점 |
---|---|---|---|
Z-score | 수치형 | 계산 간단 | 정규분포 필요 |
IQR | 수치형 | 이상치에 강건 | 박스플롯과 궁합 좋음 |
Isolation Forest | 수치형/고차원 | 빠름 | 하이퍼파라미터 필요 |
One-Class SVM | 수치형 | 비선형 이상치도 탐지 | 느림 |
KNN 거리 | 수치형 | 직관적 | 거리 계산 비용 큼 |
LOF | 수치형 | 밀도 고려 | 해석 어려움 |
Autoencoder | 고차원 | 복잡한 구조 | 학습 필요 |
답글 남기기