[카테고리:] 미분류

  • 데이터 정제(data cleansing/cleaning)


    ✅ 데이터 정제 주요 기법

    아래는 데이터 정제에서 자주 쓰이는 기법들범주별로 간단히 나눈 목록입니다.


    1. 결측치 처리 (Missing Value Handling)

    • 평균/중앙값/최빈값 대체
    • 그룹별 대체
    • 선형/다항 회귀 예측
    • KNN/랜덤포레스트 기반 대체
    • 삭제 (행/열 제거)
    • 지표변수 추가 (결측 여부 표시)

    2. 이상치 처리 (Outlier Handling)

    • IQR (사분위 범위) 방식
    • Z-score 방식
    • 로버스트 스케일링
    • 트렁케이션/클리핑 (값 제한)
    • 이상치 탐지 모델 (Isolation Forest, LOF 등)

    3. 데이터 변환 (Data Transformation)

    • 정규화 (Normalization): Min-Max, Z-score, Robust 등
    • 로그/루트 변환: log(x), √x 등
    • 스케일링: StandardScaler, RobustScaler, MaxAbsScaler 등

    4. 데이터 인코딩 (Categorical Encoding)

    • 레이블 인코딩
    • 원-핫 인코딩
    • 빈도 인코딩
    • 타깃 인코딩 (통계적 인코딩)
    • 임베딩 (Embedding)

    5. 피처 처리 / 추출 (Feature Handling)

    • 파생 변수 생성 (날짜 → 요일, 시간대 등)
    • 텍스트: TF-IDF, CountVectorizer
    • 수치형 구간화 (Binning)
      • 등간 구간화 (equal-width)
      • 등도 구간화 (equal-frequency)
      • k-means 군집 기반 구간화
    • 피처 선택 (상관관계 기반, L1 규제, 트리 기반 중요도)

    6. 군집화 기반 정제

    • K-Means / DBSCAN / GMM 활용
      • 유사 그룹별 대표값 대체
      • 이상치 탐지
      • 고차원 데이터 구조 파악

    7. 회귀/분류 예측 기반 보정

    • 결측/이상치를 회귀/분류 모델로 예측 후 대체
    • 복잡한 값 추정 가능 (예: 상품 등급, 가격 등)

    8. 텍스트/자연어 정제

    • 정규식 기반 토큰화
    • 불용어 제거, 표제어 추출
    • 맞춤법/오타 교정
    • 문장 분리 및 문맥 단위 처리
    • 텍스트 정렬 및 병합

    9. 날짜/시간 정제

    • 포맷 통일 (YYYY-MM-DD 등)
    • 시계열 정렬 및 보간 (interpolation)
    • 타임존 변환
    • 주기 추출 (주간, 월간 등)

    10. 중복 및 불일치 정제

    • 완전 중복 제거
    • 조건부 중복 제거 (ID+날짜 같은 키)
    • 표기 통일 (예: 남/남자, 서울/SEOUL)
    • 유사값 병합 (Fuzzy Matching 등)

    🎯 전체 요약 (분류 기준)

    범주대표 기법 예시
    결측치 처리평균 대체, 회귀 예측, 삭제
    이상치 처리Z-score, IQR, 이상치 탐지
    변환정규화, 로그, 스케일링
    인코딩One-hot, Label, Embedding
    파생/구간화날짜 파생, Binning, K-means
    군집화클러스터 대표값 대체
    예측 기반 보정회귀/분류로 결측/이상치 보정
    텍스트 처리토큰화, 표제어, 오타 수정
    날짜 정제시간대 정리, 주기 추출
    중복/불일치중복 제거, 정규화, 매핑 통일