sol’s blog

feature wise normalization와 주요 정규화 기법

sol-commits
sol-commitsJun 3, 2025
feature wise normalization와 주요 정규화 기법
💡
관련 논문: Feature wise normalization: An effective way of normalizing data
  • 전통적 정규화(전역 스케일링) 방식이 각 특성의 데이터 분포를 최적으로 반영하지 못해 서브최적(suboptimal) 성능을 초래할 수 있다고 지적
  • 반면, 특성별 정규화는 각 특성을 별도의 정규화 단위로 보고 여러 방법 중 최적을 선택함으로써 정규화 효과를 극대화할 수 있음을 강조
  • 논문에서는 Antlion Optimization 알고리즘을 이용해 특성마다 최적의 정규화 기법 조합을 탐색하였으며, 12개의 후보 정규화 기법 풀을 구성해 실험을 진행했음

    → 특성별 정규화는 기존의 전역 정규화보다 일관되게 우수한 성능을 보임 + 일반화 성능에도 기여함

    주요 정규화 기법과 수식

    MinMaxScaler

    각 피처의 최솟값을 0, 최댓값을 1로 정규화하여 값을 [0, 1]로 범위로 변환
    xscaled=xxminxmaxxmin x_{scaled} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}
    • 데이터의 범위를 고정시켜 직관적 스케일을 제공하지만, 데이터 내 극단값(이상치)에 매우 민감
    • 최댓값이나 최솟값이 비정상적으로 크거나 작으면 해당 값에 맞춰 모든 데이터가 압축되어버릴 수도 있음

      → 이상치가 존재하는 경우에는 Min-Max 정규화를 피하는 것이 좋음

    • 데이터에 음수가 포함되어도 부호가 사라지고, 숫자 크기로만 판단하게 되어 딥러닝 모델이 부호에 따른 의미를 학습하기 어려워질 수 있음

    StandardScaler(Z-Score 표준화)

    데이터의 평균을 0, 표준편차를 1로 조정하는 정규화
    z=xμσ z = \frac{x - \mu}{\sigma}
    • 데이터가 대략 정규분포를 따르거나 중간값 주위에 고르게 분포하는 경우 효과적
    • 평균과 표준편차가 이상치의 영향을 크게 받으므로, 극단값이 있는 데이터에는 취약하다는 단점

    RobustScaler

    중앙값과 IQR을 사용하여 스케일링하는 방법
    xscaled=xmedian(x)IQR(x) x_{\text{scaled}} = \frac{x - \text{median}(x)}{\text{IQR}(x)}
    • 데이터의 중앙값이 0으로 이동하고, IQR 범위가 스케일의 단위로 사용됨
    • 평균이나 범위를 사용하지 않으므로 이상치의 영향이 최소화되는 장점
      • 극단적인 값들은 중앙값 밑 IQR 계산에 포함되지 않거나 영향이 작기 때문
    • [0, 1]와 같은 고정 범위를 갖지 않고 분포의 중앙에 집중되는 형태이므로, 해석 시 스케일이 상대적으로 어떤 의미인지를 고려해야함

    왜 LSTM에 MinMaxScaler가 자주 사용될까?

    LSTM은 내부적으로 sigmoid, tanh 같은 bounded([-1, 1] or [0, 1]) 활성화 함수를 사용

    • 일력값이 이 범위에 잘 맞으면
      • 게이트가 민감하게 반응하고
      • Gradient vanishing/exploding 문제가 완화됨

    → 그래서 LSTM에서 입력을 [0, 1] 또는 [-1, 1] 범위로 스케일링하면 학습이 더 안정적일 수 있음