결측치 처리(missing value imputation)는 데이터 전처리에서 매우 중요한 단계이며, 특히 통계값을 활용한 대체 방식은 가장 널리 사용되고 해석하기도 쉽습니다.
✅ 통계값을 이용한 결측치 대체 방법 총정리
1. 평균(Mean) 대체
- 정의: 결측값을 전체 평균으로 대체
- 수식: x결측→xˉ=1n∑i=1nxix_{결측} \rightarrow \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i
- 조건:
- 정규분포 혹은 치우침(skew)이 적을 때 적합
- 장점:
- 계산 간단
- 수치적 일관성 유지
- 단점:
- 이상치(outlier)에 민감함
- 분산이 과소추정될 수 있음
2. 중앙값(Median) 대체
- 정의: 결측값을 중앙값으로 대체
- 조건:
- 데이터에 극단값이나 비대칭 분포가 있을 때 유리
- 장점:
- 이상치에 강건함
- 단점:
- 정규분포에는 평균보다 비효율적일 수 있음
3. 최빈값(Mode) 대체
- 정의: 결측값을 가장 자주 나타나는 최빈값으로 대체
- 적용 대상:
- 범주형(categorical) 데이터에 주로 사용
- 장점:
- 의미상 자연스러운 보간 가능
- 단점:
- 범주 간 균형을 왜곡할 수 있음 (특히 불균형 클래스일 때)
4. 그룹별 평균/중앙값 대체 (Group-based Imputation)
- 정의: 그룹(클래스, 카테고리 등) 별로 평균 또는 중앙값을 계산하여 해당 그룹 내 결측값에 대체
- 예시:
성별
이 남자일 경우 해당 그룹의 평균 키로 대체 - 장점:
- 맥락에 맞는 값으로 보간 가능
- 단점:
- 소규모 그룹에는 노이즈 위험
5. 변수 상관 기반 평균 대체 (Regression Mean)
- 정의: 상관 있는 다른 변수의 평균 값을 사용하여 대체
- 예시:
체중
결측 →키
와의 상관관계를 활용한 예측 평균 사용 - 장점:
- 보다 정밀한 추정 가능
- 단점:
- 단일 변수 기반이므로 복잡한 상호작용 반영은 어려움
🔍 예외적 통계기반 기법
6. 고정값 대체 (e.g., 0 or -9999)
- 정의: 결측값을 특정한 숫자로 대체
- 통계적 의미보다는 기술적 처리 목적 (예: NULL 구분)
- 주의: 모델링 시 혼동을 피하기 위해 indicator 변수 추가 필요
7. 확률 기반 대체 (Random Sampling from Distribution)
- 정의: 해당 컬럼의 분포를 기반으로 확률적으로 값 선택
- 장점: 분산 유지
- 단점: 재현성 감소, 과적합 위험
📌 비교 요약표
방법 | 사용 대상 | 장점 | 단점 |
---|---|---|---|
평균 대체 | 연속형 | 계산 간단 | 이상치 민감 |
중앙값 대체 | 연속형 | 이상치 강건 | 분산 감소 |
최빈값 대체 | 범주형 | 간단 | 클래스 불균형 시 문제 |
그룹별 평균/중앙값 | 연속/범주 | 맥락 반영 | 소그룹 왜곡 가능 |
상관기반 평균 | 연속형 | 변수 관계 반영 | 제한적 관계만 반영 |
고정값 | 연속/범주 | 구분 명확 | 왜곡 위험 |
확률샘플링 | 연속형 | 분포 유지 | 랜덤성, 불안정 |
💡 참고사항
- 단순 통계 대체는 빠르고 쉽지만, 데이터를 왜곡할 수 있습니다.
- 이후 모델 학습 전에 반드시
결측값 처리 여부를 표시하는 변수
(indicator variable)를 추가하면 성능 향상에 도움이 될 수 있습니다.
답글 남기기