๐น 1. ๋จ์ ๋ฒ์ ๊ธฐ๋ฐ
1.1 Min-Max Scaling
- ์์: xโฒ=xโminโก(x)maxโก(x)โminโก(x)x’ = \frac{x – \min(x)}{\max(x) – \min(x)}xโฒ=max(x)โmin(x)xโmin(x)โ
- ๋ฒ์: [0, 1]
- ์ฅ์ : ์ง๊ด์ , ๊ฐ์ค์น ํด์ ์ฉ์ด
- ๋จ์ : ์์๋ผ์ด์ด์ ์ทจ์ฝ
1.2 Max Normalization
- ์์: xโฒ=xmaxโก(โฃxโฃ)x’ = \frac{x}{\max(|x|)}xโฒ=max(โฃxโฃ)xโ
- ๊ฐ์ฅ ํฐ ๊ฐ์ 1๋ก, ๋๋จธ์ง๋ฅผ ๋น๋ก ์ถ์
- IR์์ cosine์ด๋ dot product ์ค์ฝ์ด๋ฅผ ์กฐ์ ํ ๋ ์์ฃผ ์ฌ์ฉ
๐น 2. ํ๊ท ยท๋ถ์ฐ ๊ธฐ๋ฐ
2.1 Z-score Standardization
- ์์: xโฒ=xโฮผฯx’ = \frac{x – \mu}{\sigma}xโฒ=ฯxโฮผโ
- ํ๊ท 0, ํ์คํธ์ฐจ 1
- ์ฅ์ : ๋ถํฌ ๋น๊ต์ ๊ฐํจ
- ๋จ์ : heavy-tailed ๋ถํฌ์์ ๊ทน๋จ๊ฐ ์ํฅ ํผ
2.2 Robust Scaling (Median & IQR)
- ์์: xโฒ=xโmedian(x)IQR(x)x’ = \frac{x – \text{median}(x)}{\text{IQR}(x)}xโฒ=IQR(x)xโmedian(x)โ (IQR = Q3 – Q1)
- ์ฅ์ : ์์๋ผ์ด์ด์ ๊ฐํจ
- ์ถ์ฒ ์์คํ , ๋ก๊ทธ ์ ์ ์กฐ์ ์ ๋ง์ด ์ฐ์
๐น 3. ๋น์ ํ ์์ถ(ํํํ)
3.1 ๋ก๊ทธ ๋ณํ (Log Scaling)
- ์์: xโฒ=logโก(1+x)x’ = \log(1 + x)xโฒ=log(1+x)
- ๊ธด ๊ผฌ๋ฆฌ(long-tail) ๋ถํฌ ํํํ
- BM25์ฒ๋ผ ๋ถํฌ๊ฐ ํ์ชฝ์ผ๋ก ์ ๋ฆฐ ์ ์์ ์ ๋ฆฌ
3.2 ์ ๊ณฑ๊ทผ ๋ณํ (Sqrt Scaling)
- ์์: xโฒ=xx’ = \sqrt{x}xโฒ=xโ
- ๊ทน๋จ๊ฐ์ ๋๋ฅด๊ณ ์ค๊ฐ๊ฐ์ ๊ฐ์กฐ
- Count ๊ธฐ๋ฐ ์ ์(์ถํ๋น๋) ์กฐ์ ํ ๋ ์์ฃผ ์ฌ์ฉ
3.3 Sigmoid / Logistic Scaling
- ์์: xโฒ=11+eโxx’ = \frac{1}{1 + e^{-x}}xโฒ=1+eโx1โ
- (-โ, โ) โ (0, 1) ๋งคํ
- ๋ถํฌ๋ฅผ ํ๋ฅ ์ฒ๋ผ ๋ณํ
- ๋ญํน ์ ์ ์ตํฉ ์ “ํ๋ฅ ํด์” ๊ฐ๋ฅ
3.4 Tanh Scaling
- ์์: xโฒ=0.5ร(tanhโกโโฃ(0.01โ (xโฮผ))+1)x’ = 0.5 \times \left(\tanh\!\left(0.01 \cdot (x – \mu)\right) + 1\right)xโฒ=0.5ร(tanh(0.01โ (xโฮผ))+1)
- ํ๊ท ์ค์ฌ + [-1,1] ์์ถ
- IR ์คํ์์ ์ ๊ทํ๋ ์ ์ ์ค์ผ์ผ๋ง์ ํ์ค ๊ธฐ๋ฒ ์ค ํ๋
๐น 4. ๋ญํฌ ๊ธฐ๋ฐ (๊ฐ ๋์ ์์๋ง ์ฌ์ฉ)
4.1 Rank Normalization
- ์์๋ฅผ 0~1 ์ฌ์ด ๊ฐ์ผ๋ก ๋งคํ xโฒ=rank(x)Nx’ = \frac{\text{rank}(x)}{N}xโฒ=Nrank(x)โ
- ์ฅ์ : ๋ถํฌ ๋ฌด๊ด, ๊ณต์ ํจ
- ๋จ์ : ์ ์ ๊ฐ ์ฐจ์ด๋ฅผ ๋ฒ๋ฆผ
4.2 Reciprocal Rank Fusion (RRF)
- ์์: score(d)=โsโsystems1C+ranks(d)\text{score}(d) = \sum_{s \in \text{systems}} \frac{1}{C + \text{rank}_s(d)}score(d)=sโsystemsโโC+ranksโ(d)1โ
- ์ฌ๋ฌ ๊ฒ์๊ธฐ ์์๋ฅผ ์ตํฉํ ๋ ๊ฐ๋ ฅ
4.3 Borda Count
- ๊ฐ ์์์ ์ ์ ๋ถ์ฌ (์: N-rank) ํ ํฉ์ฐ
- ํฌํ ์ด๋ก ๊ธฐ๋ฐ, ๋จ์ํ๊ณ ์์ ์
๐น 5. ํ์ต ๊ธฐ๋ฐ
5.1 Platt Scaling
- ์ ํ ๋ถ๋ฅ๊ธฐ ์ ์๋ฅผ sigmoid ๋ณํ ํ ํ์ต
- ๋ณดํต SVM, IR ์ ์๋ฅผ ํ๋ฅ ๋ก ๋ณํํ ๋ ์ฌ์ฉ
5.2 Isotonic Regression
- ๋น๋ชจ์์ ๋จ์กฐ ํ๊ท๋ก ์ ์๋ฅผ ํ๋ฅ ๋ก ๋ณด์
- ๋ฐ์ดํฐ ์ถฉ๋ถํ ๋ ํจ๊ณผ์
๐น 6. ํผํฉยทํน์ ๊ธฐ๋ฒ
6.1 CombSUM
- ์ ๊ทํ๋ ์ ์๋ฅผ ๋จ์ ํฉ์ฐ
6.2 CombMNZ
- ์ ๊ทํ๋ ํฉ ร (๋น์ ๊ธฐ์ฌ ์์คํ ์)
- ์ฌ๋ฌ ๋ชจ๋ธ์ด ๋์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ฌ๋ฆผ
6.3 Softmax Normalization
- ์์: xiโฒ=exiโjexjx’_i = \frac{e^{x_i}}{\sum_j e^{x_j}}xiโฒโ=โjโexjโexiโโ
- ํ๋ฅ ๋ถํฌ๋ก ๋ณํ
- ํ์ง๋ง outlier์ ๋ฏผ๊ฐ โ ์จ๋(temperature) ์กฐ์ ์์ฃผ ํจ
โ ์ ๋ฆฌ
- ๋ถํฌ๊ฐ ํ์ชฝ์ ๋ชฐ๋ ค์๋ค โ ๋ก๊ทธ, sqrt, sigmoid, tanh
- ์์๋ผ์ด์ด๊ฐ ๋ง๋ค โ Robust scaling (median/IQR)
- ์ฌ๋ฌ ๋ชจ๋ธ์ ์ตํฉํ๋ค โ Rank ๊ธฐ๋ฐ(RRF, Borda)
- ํ๋ฅ ๋ก ํด์ํ๊ณ ์ถ๋ค โ Sigmoid, Softmax, Platt, Isotonic
๋ต๊ธ ๋จ๊ธฐ๊ธฐ