feature wise normalization와 주요 정규화 기법

sol-commitsJun 3, 2025

feature wise normalization와 주요 정규화 기법

💡

관련 논문: Feature wise normalization: An effective way of normalizing data

전통적 정규화(전역 스케일링) 방식이 각 특성의 데이터 분포를 최적으로 반영하지 못해 서브최적(suboptimal) 성능을 초래할 수 있다고 지적

반면, 특성별 정규화는 각 특성을 별도의 정규화 단위로 보고 여러 방법 중 최적을 선택함으로써 정규화 효과를 극대화할 수 있음을 강조

논문에서는 Antlion Optimization 알고리즘을 이용해 특성마다 최적의 정규화 기법 조합을 탐색하였으며, 12개의 후보 정규화 기법 풀을 구성해 실험을 진행했음
→ 특성별 정규화는 기존의 전역 정규화보다 일관되게 우수한 성능을 보임 + 일반화 성능에도 기여함

주요 정규화 기법과 수식

MinMaxScaler

각 피처의 최솟값을 0, 최댓값을 1로 정규화하여 값을 [0, 1]로 범위로 변환

x_{scaled} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}

데이터의 범위를 고정시켜 직관적 스케일을 제공하지만, 데이터 내 극단값(이상치)에 매우 민감

최댓값이나 최솟값이 비정상적으로 크거나 작으면 해당 값에 맞춰 모든 데이터가 압축되어버릴 수도 있음
→ 이상치가 존재하는 경우에는 Min-Max 정규화를 피하는 것이 좋음

데이터에 음수가 포함되어도 부호가 사라지고, 숫자 크기로만 판단하게 되어 딥러닝 모델이 부호에 따른 의미를 학습하기 어려워질 수 있음

StandardScaler(Z-Score 표준화)

데이터의 평균을 0, 표준편차를 1로 조정하는 정규화

z = \frac{x - \mu}{\sigma}

데이터가 대략 정규분포를 따르거나 중간값 주위에 고르게 분포하는 경우 효과적

평균과 표준편차가 이상치의 영향을 크게 받으므로, 극단값이 있는 데이터에는 취약하다는 단점

RobustScaler

중앙값과 IQR을 사용하여 스케일링하는 방법

x_{\text{scaled}} = \frac{x - \text{median}(x)}{\text{IQR}(x)}

데이터의 중앙값이 0으로 이동하고, IQR 범위가 스케일의 단위로 사용됨

평균이나 범위를 사용하지 않으므로 이상치의 영향이 최소화되는 장점
- 극단적인 값들은 중앙값 밑 IQR 계산에 포함되지 않거나 영향이 작기 때문

[0, 1]와 같은 고정 범위를 갖지 않고 분포의 중앙에 집중되는 형태이므로, 해석 시 스케일이 상대적으로 어떤 의미인지를 고려해야함

왜 LSTM에 MinMaxScaler가 자주 사용될까?

LSTM은 내부적으로 sigmoid, tanh 같은 bounded([-1, 1] or [0, 1]) 활성화 함수를 사용

일력값이 이 범위에 잘 맞으면
- 게이트가 민감하게 반응하고
- Gradient vanishing/exploding 문제가 완화됨

→ 그래서 LSTM에서 입력을 [0, 1] 또는 [-1, 1] 범위로 스케일링하면 학습이 더 안정적일 수 있음

DL 프로젝트 - 운전자 이상 행동 분류