데이터 정제(data cleansing/cleaning)


✅ 데이터 정제 주요 기법

아래는 데이터 정제에서 자주 쓰이는 기법들범주별로 간단히 나눈 목록입니다.


1. 결측치 처리 (Missing Value Handling)

  • 평균/중앙값/최빈값 대체
  • 그룹별 대체
  • 선형/다항 회귀 예측
  • KNN/랜덤포레스트 기반 대체
  • 삭제 (행/열 제거)
  • 지표변수 추가 (결측 여부 표시)

2. 이상치 처리 (Outlier Handling)

  • IQR (사분위 범위) 방식
  • Z-score 방식
  • 로버스트 스케일링
  • 트렁케이션/클리핑 (값 제한)
  • 이상치 탐지 모델 (Isolation Forest, LOF 등)

3. 데이터 변환 (Data Transformation)

  • 정규화 (Normalization): Min-Max, Z-score, Robust 등
  • 로그/루트 변환: log(x), √x 등
  • 스케일링: StandardScaler, RobustScaler, MaxAbsScaler 등

4. 데이터 인코딩 (Categorical Encoding)

  • 레이블 인코딩
  • 원-핫 인코딩
  • 빈도 인코딩
  • 타깃 인코딩 (통계적 인코딩)
  • 임베딩 (Embedding)

5. 피처 처리 / 추출 (Feature Handling)

  • 파생 변수 생성 (날짜 → 요일, 시간대 등)
  • 텍스트: TF-IDF, CountVectorizer
  • 수치형 구간화 (Binning)
    • 등간 구간화 (equal-width)
    • 등도 구간화 (equal-frequency)
    • k-means 군집 기반 구간화
  • 피처 선택 (상관관계 기반, L1 규제, 트리 기반 중요도)

6. 군집화 기반 정제

  • K-Means / DBSCAN / GMM 활용
    • 유사 그룹별 대표값 대체
    • 이상치 탐지
    • 고차원 데이터 구조 파악

7. 회귀/분류 예측 기반 보정

  • 결측/이상치를 회귀/분류 모델로 예측 후 대체
  • 복잡한 값 추정 가능 (예: 상품 등급, 가격 등)

8. 텍스트/자연어 정제

  • 정규식 기반 토큰화
  • 불용어 제거, 표제어 추출
  • 맞춤법/오타 교정
  • 문장 분리 및 문맥 단위 처리
  • 텍스트 정렬 및 병합

9. 날짜/시간 정제

  • 포맷 통일 (YYYY-MM-DD 등)
  • 시계열 정렬 및 보간 (interpolation)
  • 타임존 변환
  • 주기 추출 (주간, 월간 등)

10. 중복 및 불일치 정제

  • 완전 중복 제거
  • 조건부 중복 제거 (ID+날짜 같은 키)
  • 표기 통일 (예: 남/남자, 서울/SEOUL)
  • 유사값 병합 (Fuzzy Matching 등)

🎯 전체 요약 (분류 기준)

범주대표 기법 예시
결측치 처리평균 대체, 회귀 예측, 삭제
이상치 처리Z-score, IQR, 이상치 탐지
변환정규화, 로그, 스케일링
인코딩One-hot, Label, Embedding
파생/구간화날짜 파생, Binning, K-means
군집화클러스터 대표값 대체
예측 기반 보정회귀/분류로 결측/이상치 보정
텍스트 처리토큰화, 표제어, 오타 수정
날짜 정제시간대 정리, 주기 추출
중복/불일치중복 제거, 정규화, 매핑 통일

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다