[카테고리:] 미분류

  • scaling 정리

    🔹 1. 단순 범위 기반

    1.1 Min-Max Scaling

    • 수식: x′=x−min⁡(x)max⁡(x)−min⁡(x)x’ = \frac{x – \min(x)}{\max(x) – \min(x)}x′=max(x)−min(x)x−min(x)​
    • 범위: [0, 1]
    • 장점: 직관적, 가중치 해석 용이
    • 단점: 아웃라이어에 취약

    1.2 Max Normalization

    • 수식: x′=xmax⁡(∣x∣)x’ = \frac{x}{\max(|x|)}x′=max(∣x∣)x​
    • 가장 큰 값을 1로, 나머지를 비례 축소
    • IR에서 cosine이나 dot product 스코어를 조정할 때 자주 사용

    🔹 2. 평균·분산 기반

    2.1 Z-score Standardization

    • 수식: x′=x−μσx’ = \frac{x – \mu}{\sigma}x′=σx−μ​
    • 평균 0, 표준편차 1
    • 장점: 분포 비교에 강함
    • 단점: heavy-tailed 분포에서 극단값 영향 큼

    2.2 Robust Scaling (Median & IQR)

    • 수식: x′=x−median(x)IQR(x)x’ = \frac{x – \text{median}(x)}{\text{IQR}(x)}x′=IQR(x)x−median(x)​ (IQR = Q3 – Q1)
    • 장점: 아웃라이어에 강함
    • 추천 시스템, 로그 점수 조정에 많이 쓰임

    🔹 3. 비선형 압축(평탄화)

    3.1 로그 변환 (Log Scaling)

    • 수식: x′=log⁡(1+x)x’ = \log(1 + x)x′=log(1+x)
    • 긴 꼬리(long-tail) 분포 평탄화
    • BM25처럼 분포가 한쪽으로 쏠린 점수에 유리

    3.2 제곱근 변환 (Sqrt Scaling)

    • 수식: x′=xx’ = \sqrt{x}x′=x​
    • 극단값을 누르고 중간값을 강조
    • Count 기반 점수(출현빈도) 조정할 때 자주 사용

    3.3 Sigmoid / Logistic Scaling

    • 수식: x′=11+e−xx’ = \frac{1}{1 + e^{-x}}x′=1+e−x1​
    • (-∞, ∞) → (0, 1) 매핑
    • 분포를 확률처럼 변환
    • 랭킹 점수 융합 시 “확률 해석” 가능

    3.4 Tanh Scaling

    • 수식: x′=0.5×(tanh⁡ ⁣(0.01⋅(x−μ))+1)x’ = 0.5 \times \left(\tanh\!\left(0.01 \cdot (x – \mu)\right) + 1\right)x′=0.5×(tanh(0.01⋅(x−μ))+1)
    • 평균 중심 + [-1,1] 압축
    • IR 실험에서 정규화된 점수 스케일링의 표준 기법 중 하나

    🔹 4. 랭크 기반 (값 대신 순위만 사용)

    4.1 Rank Normalization

    • 순위를 0~1 사이 값으로 매핑 x′=rank(x)Nx’ = \frac{\text{rank}(x)}{N}x′=Nrank(x)​
    • 장점: 분포 무관, 공정함
    • 단점: 점수 간 차이를 버림

    4.2 Reciprocal Rank Fusion (RRF)

    • 수식: score(d)=∑s∈systems1C+ranks(d)\text{score}(d) = \sum_{s \in \text{systems}} \frac{1}{C + \text{rank}_s(d)}score(d)=s∈systems∑​C+ranks​(d)1​
    • 여러 검색기 순위를 융합할 때 강력

    4.3 Borda Count

    • 각 순위에 점수 부여 (예: N-rank) 후 합산
    • 투표 이론 기반, 단순하고 안정적

    🔹 5. 학습 기반

    5.1 Platt Scaling

    • 선형 분류기 점수를 sigmoid 변환 후 학습
    • 보통 SVM, IR 점수를 확률로 변환할 때 사용

    5.2 Isotonic Regression

    • 비모수적 단조 회귀로 점수를 확률로 보정
    • 데이터 충분할 때 효과적

    🔹 6. 혼합·특수 기법

    6.1 CombSUM

    • 정규화된 점수를 단순 합산

    6.2 CombMNZ

    • 정규화된 합 × (비영 기여 시스템 수)
    • 여러 모델이 동의하는 결과를 올림

    6.3 Softmax Normalization

    • 수식: xi′=exi∑jexjx’_i = \frac{e^{x_i}}{\sum_j e^{x_j}}xi′​=∑j​exj​exi​​
    • 확률 분포로 변환
    • 하지만 outlier에 민감 → 온도(temperature) 조절 자주 함

    ✅ 정리

    • 분포가 한쪽에 몰려있다 → 로그, sqrt, sigmoid, tanh
    • 아웃라이어가 많다 → Robust scaling (median/IQR)
    • 여러 모델을 융합한다 → Rank 기반(RRF, Borda)
    • 확률로 해석하고 싶다 → Sigmoid, Softmax, Platt, Isotonic