self-supervised learning
sol-commits Oct 1, 2025
요약
- 목표: 라벨 없이도 좋은 피처 추출기(표현)를 만드는 것
- 핵심 수단: 프리텍스트 태스크(스스로 만든 문제)와 데이터 간 관계 학습
- 대표 방법: 오토인코더, 디노이징, masked 예측(BERT, MAE), autoregressive(next token/work), 대조학습(contrastive, CLIP), 멀티뷰/멀티모달
자기지도학습
- 라벨 없이 데이터의 구조/의미를 배우며 feature extraction(표현)을 만든다. → 이렇게 얻은 표현은 이후 어떤 태스크에도 쉽게 전이됨
- 강점
: 대규모 데이터로 일반성 높은 표현을 학습 → 소량 라벨만드로도 좋은 성능(파인 튜닝) → 실제 산업 데이터(어둡/밝음, 환경 변화)에 강인
오토인코더 & 디노이징
- 오토인코더(AC)
- 입력을 압축(인코더) → 복원(디코더)
- 중간 잠재표현 z가
핵심 특징을 담음 - 인코더(압축) - 디코더(복원) 구조로 잠재표현을 배우는 것
- 디노이징 AE
- 일부에 노이즈를 넣고 원본을 복원하도록 학습 → 노이즈에 둔감하고 본질만 남는 표현
Masked Prediction
언어(BERT)- 문자 중 일부 토큰을
MASK로 가리고 정답 토큰을 예측 - 이미지(MAE)도 패치의 일부만 보여주고 나머지를 복원
오토리그레시브
- GPT/언어/오디오에 적합
- 과거만 보고 다음 토큰/프레임을 맞춤
- 순서가 있는 데이터(텍스트, 음성, 비디오)에서 특히 자연스러움
BERT vs GPT
- BERT
- 양방향 인코더
- 일부를 가린 뒤 복원
→ 좋은 문장 표현을 얻는 데 특화
- GPT
- 한 방향(과거 → 미래) 생성
- 다음 토큰 예측 → 생성/완성에 특화
MAE(Masked Auto Encoder)
- 이미지 패치의 75% 이상을 지워도 복원이 가능
실제 논문에서는 75~95% 패치를 마스크해도 놀랍게 복원이 가능함
Word2Vec
Self-supervised learning 의 초기 대표 사례로, 단어를 벡터로 임베딩
Self-Prediction
하나의 데이터 안에서 일부를 가리고, 나머지 부분으로 그 일부를 맞추는 방식즉, intra-sample prediction
BERT
MAE
Denoising Autoencoder