🔹 1. 단순 범위 기반
1.1 Min-Max Scaling
- 수식: x′=x−min(x)max(x)−min(x)x’ = \frac{x – \min(x)}{\max(x) – \min(x)}x′=max(x)−min(x)x−min(x)
- 범위: [0, 1]
- 장점: 직관적, 가중치 해석 용이
- 단점: 아웃라이어에 취약
1.2 Max Normalization
- 수식: x′=xmax(∣x∣)x’ = \frac{x}{\max(|x|)}x′=max(∣x∣)x
- 가장 큰 값을 1로, 나머지를 비례 축소
- IR에서 cosine이나 dot product 스코어를 조정할 때 자주 사용
🔹 2. 평균·분산 기반
2.1 Z-score Standardization
- 수식: x′=x−μσx’ = \frac{x – \mu}{\sigma}x′=σx−μ
- 평균 0, 표준편차 1
- 장점: 분포 비교에 강함
- 단점: heavy-tailed 분포에서 극단값 영향 큼
2.2 Robust Scaling (Median & IQR)
- 수식: x′=x−median(x)IQR(x)x’ = \frac{x – \text{median}(x)}{\text{IQR}(x)}x′=IQR(x)x−median(x) (IQR = Q3 – Q1)
- 장점: 아웃라이어에 강함
- 추천 시스템, 로그 점수 조정에 많이 쓰임
🔹 3. 비선형 압축(평탄화)
3.1 로그 변환 (Log Scaling)
- 수식: x′=log(1+x)x’ = \log(1 + x)x′=log(1+x)
- 긴 꼬리(long-tail) 분포 평탄화
- BM25처럼 분포가 한쪽으로 쏠린 점수에 유리
3.2 제곱근 변환 (Sqrt Scaling)
- 수식: x′=xx’ = \sqrt{x}x′=x
- 극단값을 누르고 중간값을 강조
- Count 기반 점수(출현빈도) 조정할 때 자주 사용
3.3 Sigmoid / Logistic Scaling
- 수식: x′=11+e−xx’ = \frac{1}{1 + e^{-x}}x′=1+e−x1
- (-∞, ∞) → (0, 1) 매핑
- 분포를 확률처럼 변환
- 랭킹 점수 융합 시 “확률 해석” 가능
3.4 Tanh Scaling
- 수식: x′=0.5×(tanh (0.01⋅(x−μ))+1)x’ = 0.5 \times \left(\tanh\!\left(0.01 \cdot (x – \mu)\right) + 1\right)x′=0.5×(tanh(0.01⋅(x−μ))+1)
- 평균 중심 + [-1,1] 압축
- IR 실험에서 정규화된 점수 스케일링의 표준 기법 중 하나
🔹 4. 랭크 기반 (값 대신 순위만 사용)
4.1 Rank Normalization
- 순위를 0~1 사이 값으로 매핑 x′=rank(x)Nx’ = \frac{\text{rank}(x)}{N}x′=Nrank(x)
- 장점: 분포 무관, 공정함
- 단점: 점수 간 차이를 버림
4.2 Reciprocal Rank Fusion (RRF)
- 수식: score(d)=∑s∈systems1C+ranks(d)\text{score}(d) = \sum_{s \in \text{systems}} \frac{1}{C + \text{rank}_s(d)}score(d)=s∈systems∑C+ranks(d)1
- 여러 검색기 순위를 융합할 때 강력
4.3 Borda Count
- 각 순위에 점수 부여 (예: N-rank) 후 합산
- 투표 이론 기반, 단순하고 안정적
🔹 5. 학습 기반
5.1 Platt Scaling
- 선형 분류기 점수를 sigmoid 변환 후 학습
- 보통 SVM, IR 점수를 확률로 변환할 때 사용
5.2 Isotonic Regression
- 비모수적 단조 회귀로 점수를 확률로 보정
- 데이터 충분할 때 효과적
🔹 6. 혼합·특수 기법
6.1 CombSUM
- 정규화된 점수를 단순 합산
6.2 CombMNZ
- 정규화된 합 × (비영 기여 시스템 수)
- 여러 모델이 동의하는 결과를 올림
6.3 Softmax Normalization
- 수식: xi′=exi∑jexjx’_i = \frac{e^{x_i}}{\sum_j e^{x_j}}xi′=∑jexjexi
- 확률 분포로 변환
- 하지만 outlier에 민감 → 온도(temperature) 조절 자주 함
✅ 정리
- 분포가 한쪽에 몰려있다 → 로그, sqrt, sigmoid, tanh
- 아웃라이어가 많다 → Robust scaling (median/IQR)
- 여러 모델을 융합한다 → Rank 기반(RRF, Borda)
- 확률로 해석하고 싶다 → Sigmoid, Softmax, Platt, Isotonic