ReLU | f(x)=max(0,x)f(x) = \max(0, x) | 간단하고 빠르며, 양수만 통과시켜 sparsity 유도 |
Leaky ReLU | f(x)=max(αx,x)f(x) = \max(\alpha x, x) | ReLU의 죽은 뉴런 문제를 작은 음수 기울기로 완화 |
Parametric ReLU (PReLU) | f(x)=max(ax,x)f(x) = \max(a x, x) (a는 학습됨) | Leaky ReLU의 기울기를 학습 가능하게 개선 |
ELU | f(x)=xf(x) = x if x>0x>0, else α(ex−1)\alpha (e^x – 1) | 음수도 부드럽게 반영, 평균 출력을 0에 가깝게 |
SELU | Self-Normalizing ELU | 층이 깊어져도 자동 정규화 효과 유지 |
GELU | f(x)=x⋅Φ(x)f(x) = x \cdot \Phi(x) | 입력을 확률적으로 통과시키는 부드러운 ReLU (BERT 등에서 사용) |
Sigmoid | f(x)=11+e−xf(x) = \frac{1}{1 + e^{-x}} | 출력이 0~1, 확률값처럼 쓰이나 gradient vanishing 문제 있음 |
Tanh | f(x)=tanh(x)f(x) = \tanh(x) | 출력이 -1~1, Sigmoid보다 중심 대칭적이나 역시 gradient vanishing 위험 |
Swish | f(x)=x⋅sigmoid(x)f(x) = x \cdot \text{sigmoid}(x) | Google이 제안한, 부드러운 곡선형 비선형 함수 |
Softmax | f(xi)=exi∑exjf(x_i) = \frac{e^{x_i}}{\sum e^{x_j}} | 다중 클래스 분류의 출력층에 사용, 총합이 1인 확률 벡터 생성 |
Hard Sigmoid | 선형 근사된 sigmoid 함수 | 계산이 가볍고 빠르나 표현력은 낮음 |
Hard Swish | 선형 근사된 swish 함수 (MobileNetV3) | 모바일 환경에 최적화된 경량 swish 대안 |
답글 남기기