[카테고리:] 미분류

  • ✅ 이상값 탐지 기법 요약


    1. Z-score 방식

    • 개념: 평균에서 얼마나 떨어져 있는지를 표준편차 기준으로 측정
    • 공식: Z=x−μσZ = \frac{x – \mu}{\sigma}
    • 기준: |Z| > 2 또는 3이면 이상치
    • 특징: 정규분포 가정 필요, 수치형 데이터에 적합

    2. IQR 방식 (사분위수 범위)

    • 개념: 1사분위(Q1)~3사분위(Q3) 범위를 벗어난 값 탐지
    • 공식: IQR=Q3−Q1이상치: x<Q1−1.5×IQR또는x>Q3+1.5×IQRIQR = Q3 – Q1 \\ \text{이상치: } x < Q1 – 1.5 \times IQR \quad \text{또는} \quad x > Q3 + 1.5 \times IQR
    • 특징: 정규분포 가정 없음, 이상치에 강건

    3. Boxplot 기반

    • 개념: IQR 방식 시각화
    • 특징: 데이터 분포를 직관적으로 확인 가능

    4. Isolation Forest

    • 개념: 이상치는 나무에서 쉽게 “격리”되는 특징을 이용
    • 특징: 고차원 데이터에 강함, 학습 기반, 빠름

    5. One-Class SVM

    • 개념: 정상 데이터를 하나의 영역으로 잡고, 그 밖은 이상치로 분류
    • 특징: 비선형 경계 가능, 이상치 탐지용으로 설계된 SVM

    6. KNN 기반 거리 탐지

    • 개념: 이웃 거리(K개)를 기준으로 평균 거리 계산
    • 기준: 평균 거리가 큰 데이터 → 이상치

    7. LOF (Local Outlier Factor)

    • 개념: 지역 밀도 기반 이상치 탐지
    • 특징: 주변 밀도가 낮으면 이상치로 판단

    8. 시계열 이상치 탐지

    • 기법:
      • 이동 평균(MA)
      • STL 분해 후 잔차 분석
      • Prophet 이상치 탐지 기능
    • 특징: 계절성, 추세를 고려한 이상치 탐지

    9. 딥러닝 기반

    • Autoencoder: 재구성 오류가 큰 데이터를 이상치로 간주
    • 특징: 복잡한 패턴 학습 가능, 고차원 데이터 처리

    🔸 정리표

    방식데이터장점주의점
    Z-score수치형계산 간단정규분포 필요
    IQR수치형이상치에 강건박스플롯과 궁합 좋음
    Isolation Forest수치형/고차원빠름하이퍼파라미터 필요
    One-Class SVM수치형비선형 이상치도 탐지느림
    KNN 거리수치형직관적거리 계산 비용 큼
    LOF수치형밀도 고려해석 어려움
    Autoencoder고차원복잡한 구조학습 필요