DATA Nomalization

데이터 정규화(Normalization)는 서로 다른 스케일을 가진 데이터를 일정한 기준으로 변환하여 모델 성능을 향상시키거나 해석을 용이하게 하기 위한 중요한 전처리 기법입니다.
아래에 주요 정규화 기법들을 정의, 수식, 특징, 사용처까지 체계적으로 정리해 드릴게요.


✅ 1. 최소-최대 정규화 (Min-Max Normalization)

  • 정의: 데이터 값을 최소값 0, 최대값 1 사이로 압축
  • 수식: x′=x−min⁡(x)max⁡(x)−min⁡(x)x’ = \frac{x – \min(x)}{\max(x) – \min(x)}
  • 특징:
    • 스케일이 정해져 있어 해석 직관적
    • 이상치(outlier)에 매우 민감
  • 사용처:
    • 정해진 범위가 필요한 경우 (예: 이미지 픽셀 0~1)
    • 딥러닝 (ReLU 등 활성화 함수와 잘 호환)

✅ 2. Z-점수 정규화 (Z-score Normalization, 표준화)

  • 정의: 데이터의 평균을 0, 표준편차를 1로 조정
  • 수식: x′=x−μσx’ = \frac{x – \mu}{\sigma} (μ: 평균, σ: 표준편차)
  • 특징:
    • 이상치에 덜 민감
    • 정규분포 가정에 적합
  • 사용처:
    • 거리 기반 알고리즘 (KNN, SVM)
    • 통계 모델, 선형 회귀 등

✅ 3. 정규화 (Norm Scaling, 벡터 정규화)

  • 정의: 전체 벡터의 크기를 1로 맞춤
  • 수식: x′=x∥x∥px’ = \frac{x}{\|x\|_p} (주로 p=2인 L2 정규화 사용)
  • 특징:
    • 방향 보존, 크기 조정
    • 텍스트나 이미지 벡터 표현에 적합
  • 사용처:
    • 문서 벡터(TF-IDF)
    • 추천 시스템의 코사인 유사도 기반 거리 계산

✅ 4. 로그 정규화 (Log Transformation)

  • 정의: 로그 함수를 이용해 스케일 축소
  • 수식: x′=log⁡(x+1)x’ = \log(x + 1)
  • 특징:
    • 급격한 수치 차이를 완화
    • 0이나 음수 처리에 주의 필요
  • 사용처:
    • 비정상적으로 큰 값들 (exponential data)
    • 소득, 트래픽 로그 등

✅ 5. 순위 정규화 (Rank Normalization / Quantile Transformation)

  • 정의: 데이터 값을 순위 기반으로 정규화
  • 수식: x′=rank(x)nx’ = \frac{rank(x)}{n} 또는 정규분포 매핑
  • 특징:
    • 이상치에 강함
    • 분포를 바꿀 수 있음 (정규분포 등)
  • 사용처:
    • Robust 모델링
    • 데이터 왜곡 심할 때

✅ 6. 박스-콕스 정규화 (Box-Cox Transformation)

  • 정의: 분포의 정규성을 강화하기 위한 비선형 변환
  • 수식: x′=xλ−1λ,if λ≠0x’ = \frac{x^\lambda – 1}{\lambda},\quad \text{if } \lambda \neq 0 x′=log⁡(x),if λ=0x’ = \log(x),\quad \text{if } \lambda = 0
  • 특징:
    • 정규성(정규분포)을 강조함
    • 입력값은 양수만 가능
  • 사용처:
    • 회귀분석의 전제 조건 정규성 확보

✅ 7. 로버스트 정규화 (Robust Scaler)

  • 정의: 중앙값과 IQR(사분위 범위)를 사용
  • 수식: x′=x−median(x)IQR(x)x’ = \frac{x – \text{median}(x)}{\text{IQR}(x)}
  • 특징:
    • 이상치(outlier)에 매우 강함
  • 사용처:
    • 이상치 많은 금융 데이터, 의료 데이터

🔽 요약 비교표

기법이상치 민감도분포 가정대표 사용처
Min-Max높음비정규딥러닝, 이미지
Z-score보통정규회귀, KNN
벡터 정규화낮음없음추천 시스템
로그 정규화중간치우친 분포트래픽, 수익
순위 정규화낮음없음왜곡된 분포
Box-Cox낮음정규 강조통계분석
Robust매우 낮음없음이상치 많은 경우

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다