✅ 이상값 탐지 기법 요약


1. Z-score 방식

  • 개념: 평균에서 얼마나 떨어져 있는지를 표준편차 기준으로 측정
  • 공식: Z=x−μσZ = \frac{x – \mu}{\sigma}
  • 기준: |Z| > 2 또는 3이면 이상치
  • 특징: 정규분포 가정 필요, 수치형 데이터에 적합

2. IQR 방식 (사분위수 범위)

  • 개념: 1사분위(Q1)~3사분위(Q3) 범위를 벗어난 값 탐지
  • 공식: IQR=Q3−Q1이상치: x<Q1−1.5×IQR또는x>Q3+1.5×IQRIQR = Q3 – Q1 \\ \text{이상치: } x < Q1 – 1.5 \times IQR \quad \text{또는} \quad x > Q3 + 1.5 \times IQR
  • 특징: 정규분포 가정 없음, 이상치에 강건

3. Boxplot 기반

  • 개념: IQR 방식 시각화
  • 특징: 데이터 분포를 직관적으로 확인 가능

4. Isolation Forest

  • 개념: 이상치는 나무에서 쉽게 “격리”되는 특징을 이용
  • 특징: 고차원 데이터에 강함, 학습 기반, 빠름

5. One-Class SVM

  • 개념: 정상 데이터를 하나의 영역으로 잡고, 그 밖은 이상치로 분류
  • 특징: 비선형 경계 가능, 이상치 탐지용으로 설계된 SVM

6. KNN 기반 거리 탐지

  • 개념: 이웃 거리(K개)를 기준으로 평균 거리 계산
  • 기준: 평균 거리가 큰 데이터 → 이상치

7. LOF (Local Outlier Factor)

  • 개념: 지역 밀도 기반 이상치 탐지
  • 특징: 주변 밀도가 낮으면 이상치로 판단

8. 시계열 이상치 탐지

  • 기법:
    • 이동 평균(MA)
    • STL 분해 후 잔차 분석
    • Prophet 이상치 탐지 기능
  • 특징: 계절성, 추세를 고려한 이상치 탐지

9. 딥러닝 기반

  • Autoencoder: 재구성 오류가 큰 데이터를 이상치로 간주
  • 특징: 복잡한 패턴 학습 가능, 고차원 데이터 처리

🔸 정리표

방식데이터장점주의점
Z-score수치형계산 간단정규분포 필요
IQR수치형이상치에 강건박스플롯과 궁합 좋음
Isolation Forest수치형/고차원빠름하이퍼파라미터 필요
One-Class SVM수치형비선형 이상치도 탐지느림
KNN 거리수치형직관적거리 계산 비용 큼
LOF수치형밀도 고려해석 어려움
Autoencoder고차원복잡한 구조학습 필요

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다