[카테고리:] 미분류

  • 활성화 함수

    함수 이름수식 또는 형태특징 (한 줄 요약)
    ReLUf(x)=max⁡(0,x)f(x) = \max(0, x)간단하고 빠르며, 양수만 통과시켜 sparsity 유도
    Leaky ReLUf(x)=max⁡(αx,x)f(x) = \max(\alpha x, x)ReLU의 죽은 뉴런 문제를 작은 음수 기울기로 완화
    Parametric ReLU (PReLU)f(x)=max⁡(ax,x)f(x) = \max(a x, x) (a는 학습됨)Leaky ReLU의 기울기를 학습 가능하게 개선
    ELUf(x)=xf(x) = x if x>0x>0, else α(ex−1)\alpha (e^x – 1)음수도 부드럽게 반영, 평균 출력을 0에 가깝게
    SELUSelf-Normalizing ELU층이 깊어져도 자동 정규화 효과 유지
    GELUf(x)=x⋅Φ(x)f(x) = x \cdot \Phi(x)입력을 확률적으로 통과시키는 부드러운 ReLU (BERT 등에서 사용)
    Sigmoidf(x)=11+e−xf(x) = \frac{1}{1 + e^{-x}}출력이 0~1, 확률값처럼 쓰이나 gradient vanishing 문제 있음
    Tanhf(x)=tanh⁡(x)f(x) = \tanh(x)출력이 -1~1, Sigmoid보다 중심 대칭적이나 역시 gradient vanishing 위험
    Swishf(x)=x⋅sigmoid(x)f(x) = x \cdot \text{sigmoid}(x)Google이 제안한, 부드러운 곡선형 비선형 함수
    Softmaxf(xi)=exi∑exjf(x_i) = \frac{e^{x_i}}{\sum e^{x_j}}다중 클래스 분류의 출력층에 사용, 총합이 1인 확률 벡터 생성
    Hard Sigmoid선형 근사된 sigmoid 함수계산이 가볍고 빠르나 표현력은 낮음
    Hard Swish선형 근사된 swish 함수 (MobileNetV3)모바일 환경에 최적화된 경량 swish 대안