missing value imputation

결측치 처리(missing value imputation)는 데이터 전처리에서 매우 중요한 단계이며, 특히 통계값을 활용한 대체 방식은 가장 널리 사용되고 해석하기도 쉽습니다.


✅ 통계값을 이용한 결측치 대체 방법 총정리

1. 평균(Mean) 대체

  • 정의: 결측값을 전체 평균으로 대체
  • 수식: x결측→xˉ=1n∑i=1nxix_{결측} \rightarrow \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i
  • 조건:
    • 정규분포 혹은 치우침(skew)이 적을 때 적합
  • 장점:
    • 계산 간단
    • 수치적 일관성 유지
  • 단점:
    • 이상치(outlier)에 민감함
    • 분산이 과소추정될 수 있음

2. 중앙값(Median) 대체

  • 정의: 결측값을 중앙값으로 대체
  • 조건:
    • 데이터에 극단값이나 비대칭 분포가 있을 때 유리
  • 장점:
    • 이상치에 강건함
  • 단점:
    • 정규분포에는 평균보다 비효율적일 수 있음

3. 최빈값(Mode) 대체

  • 정의: 결측값을 가장 자주 나타나는 최빈값으로 대체
  • 적용 대상:
    • 범주형(categorical) 데이터에 주로 사용
  • 장점:
    • 의미상 자연스러운 보간 가능
  • 단점:
    • 범주 간 균형을 왜곡할 수 있음 (특히 불균형 클래스일 때)

4. 그룹별 평균/중앙값 대체 (Group-based Imputation)

  • 정의: 그룹(클래스, 카테고리 등) 별로 평균 또는 중앙값을 계산하여 해당 그룹 내 결측값에 대체
  • 예시: 성별이 남자일 경우 해당 그룹의 평균 키로 대체
  • 장점:
    • 맥락에 맞는 값으로 보간 가능
  • 단점:
    • 소규모 그룹에는 노이즈 위험

5. 변수 상관 기반 평균 대체 (Regression Mean)

  • 정의: 상관 있는 다른 변수의 평균 값을 사용하여 대체
  • 예시: 체중 결측 → 와의 상관관계를 활용한 예측 평균 사용
  • 장점:
    • 보다 정밀한 추정 가능
  • 단점:
    • 단일 변수 기반이므로 복잡한 상호작용 반영은 어려움

🔍 예외적 통계기반 기법

6. 고정값 대체 (e.g., 0 or -9999)

  • 정의: 결측값을 특정한 숫자로 대체
  • 통계적 의미보다는 기술적 처리 목적 (예: NULL 구분)
  • 주의: 모델링 시 혼동을 피하기 위해 indicator 변수 추가 필요

7. 확률 기반 대체 (Random Sampling from Distribution)

  • 정의: 해당 컬럼의 분포를 기반으로 확률적으로 값 선택
  • 장점: 분산 유지
  • 단점: 재현성 감소, 과적합 위험

📌 비교 요약표

방법사용 대상장점단점
평균 대체연속형계산 간단이상치 민감
중앙값 대체연속형이상치 강건분산 감소
최빈값 대체범주형간단클래스 불균형 시 문제
그룹별 평균/중앙값연속/범주맥락 반영소그룹 왜곡 가능
상관기반 평균연속형변수 관계 반영제한적 관계만 반영
고정값연속/범주구분 명확왜곡 위험
확률샘플링연속형분포 유지랜덤성, 불안정

💡 참고사항

  • 단순 통계 대체는 빠르고 쉽지만, 데이터를 왜곡할 수 있습니다.
  • 이후 모델 학습 전에 반드시 결측값 처리 여부를 표시하는 변수(indicator variable)를 추가하면 성능 향상에 도움이 될 수 있습니다.

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다