✅ 데이터 정제 주요 기법
아래는 데이터 정제에서 자주 쓰이는 기법들을 범주별로 간단히 나눈 목록입니다.
1. 결측치 처리 (Missing Value Handling)
- 평균/중앙값/최빈값 대체
- 그룹별 대체
- 선형/다항 회귀 예측
- KNN/랜덤포레스트 기반 대체
- 삭제 (행/열 제거)
- 지표변수 추가 (결측 여부 표시)
2. 이상치 처리 (Outlier Handling)
- IQR (사분위 범위) 방식
- Z-score 방식
- 로버스트 스케일링
- 트렁케이션/클리핑 (값 제한)
- 이상치 탐지 모델 (Isolation Forest, LOF 등)
3. 데이터 변환 (Data Transformation)
- 정규화 (Normalization): Min-Max, Z-score, Robust 등
- 로그/루트 변환: log(x), √x 등
- 스케일링: StandardScaler, RobustScaler, MaxAbsScaler 등
4. 데이터 인코딩 (Categorical Encoding)
- 레이블 인코딩
- 원-핫 인코딩
- 빈도 인코딩
- 타깃 인코딩 (통계적 인코딩)
- 임베딩 (Embedding)
5. 피처 처리 / 추출 (Feature Handling)
- 파생 변수 생성 (날짜 → 요일, 시간대 등)
- 텍스트: TF-IDF, CountVectorizer
- 수치형 구간화 (Binning)
- 등간 구간화 (equal-width)
- 등도 구간화 (equal-frequency)
- k-means 군집 기반 구간화
- 피처 선택 (상관관계 기반, L1 규제, 트리 기반 중요도)
6. 군집화 기반 정제
- K-Means / DBSCAN / GMM 활용
- 유사 그룹별 대표값 대체
- 이상치 탐지
- 고차원 데이터 구조 파악
7. 회귀/분류 예측 기반 보정
- 결측/이상치를 회귀/분류 모델로 예측 후 대체
- 복잡한 값 추정 가능 (예: 상품 등급, 가격 등)
8. 텍스트/자연어 정제
- 정규식 기반 토큰화
- 불용어 제거, 표제어 추출
- 맞춤법/오타 교정
- 문장 분리 및 문맥 단위 처리
- 텍스트 정렬 및 병합
9. 날짜/시간 정제
- 포맷 통일 (YYYY-MM-DD 등)
- 시계열 정렬 및 보간 (interpolation)
- 타임존 변환
- 주기 추출 (주간, 월간 등)
10. 중복 및 불일치 정제
- 완전 중복 제거
- 조건부 중복 제거 (ID+날짜 같은 키)
- 표기 통일 (예: 남/남자, 서울/SEOUL)
- 유사값 병합 (Fuzzy Matching 등)
🎯 전체 요약 (분류 기준)
범주 | 대표 기법 예시 |
---|---|
결측치 처리 | 평균 대체, 회귀 예측, 삭제 |
이상치 처리 | Z-score, IQR, 이상치 탐지 |
변환 | 정규화, 로그, 스케일링 |
인코딩 | One-hot, Label, Embedding |
파생/구간화 | 날짜 파생, Binning, K-means |
군집화 | 클러스터 대표값 대체 |
예측 기반 보정 | 회귀/분류로 결측/이상치 보정 |
텍스트 처리 | 토큰화, 표제어, 오타 수정 |
날짜 정제 | 시간대 정리, 주기 추출 |
중복/불일치 | 중복 제거, 정규화, 매핑 통일 |
답글 남기기