Data Centric AI
sol-commits Sep 30, 2025
요약
- 딥러닝의 성공 공식
: 모델 설계(아키텍처)만 잘하면 된다 → 데이터를 더 잘 준비하고 활용해야 성능이 안정적으로 오른다
- 시대 흐름
- 전통 ML(feature engineering)
- 딥러닝 + 지도학습(architecture engineering)
- 딥러닝은 엔드투엔드 학습을 통해 특징까지 자동으로 배움. 그 대가로 대규모의 라벨링된 데이터 필요
- 준·자기지도(objective engineering)
- 전이학습/파운데이션 모델(fine-tuning, 특히 PEFT)로 진화
핵심: 라벨에 덜 의존하고 데이터 스케일·다양성·품질로 승부하는 방향
- Data-centric AI의 골자
- 임의의 모델로도 학습 데이터셋을 개선하면 성능을 끌어올릴 수 있다
- 즉, 모델을 바꾸기보다 데이터 정의·수집·라벨·품질·분포·증강·평가 루프를 체계화하는 것이 중요
모델을 바꾸기 전에, 데이터부터 바르게
supervised learning
- 특징
- 대규모 라벨 데이터로 end-to-end 학습
- architecture 설계 경쟁(CNN, VGG, ResNet …)
- ImageNet에서 Top-5 error 급락이 상징적, 그러나 라벨링 비용이 병목
- 한계
새 서비스 = 새 태스크 = 새 라벨링 비용- 데이터가 커질수록 성능은 오르지만 라벨 수집의 경제성이 떨어짐
semi-supervised learning
- 아이디어: 라벨 소수 + 언라벨 다수를 함께 학습
- 핵심 목적함수
consistency regularization: 입력을 살짝 바꿔도 출력은 변하지 않게(smoothness)- 언라벨 데이터는 공짜로 많으니, 모델이
비슷한 입력은 같은 클래스일 것이라고 추측하면서 학습 - entropy 최소화/유사 아이디어로 언라벨의 예측을 안정화
→ 라벨 의존도⬇️, 데이터 활용도⬆️
self-supervised learning
- 핵심
- 라벨 없이 데이터에서 표현(특징)을 스스로 학습 → 훌륭한 특징 추출기(Foundation Model)를 만든 뒤 다운스트림에 광범위 이식
- objective engineering
- self-prediction/masked/contrastive 등 라벨 없는 자기예측 과제로 학습
- architecture bias ⬇️, objective engineering ⬆️
transfer learning & fine tuning
- 전이 프로토콜
- pretraining(대규모 언라벨/라벨 혼합) → 파인 튜닝(소량 라벨)
- 기존 supervised learning을 대체하기보다 데이터가 적은 현실에 잘 맞는 프레임
PEFT(파라미터 효율적 파인튜닝)- Adapters, Prefix-tuning, LoRA 등으로 일부분만 학습해 저장/메모리/계산을 아끼면서 성능 확보
- 기반 모델은 고정, 얇은 델타만 학습
- 장점
- storage efficiency
- memory efficiency
- computation efficiency
- prediction performance
| LoRA (Low-Rank Adaptation) | • 저차원 행렬 분해 아이디어 • 기존 거대한 가중치 행렬 W를 그대로 두고, 변화량만을 저랭크(낮은 차원) 행렬의 곱으로 근사해 학습 → 파라미터 수와 연산량이 줄어들면서도 성능은 유지 가능 |
Model-centric → Data-centric
- 정의의 차이
- Model-centric: “주어진 데이터셋” 위에서 최적 모델 찾기
- Data-cetric: 임의의 모델이라도 데이터셋을 개선해 성능을 끌어올리기
- 근거
- DNN은 랜덤 라벨도 암기할만큼 표현력이 강함 → 오히려 데이터 품질/정의가 성패를 가름
- 라벨 비용·지속가능성 문제와 파운데이션 모델의 부상이 데이터 중심 접근을 촉진
- 결론
- 태스크를 명확히 정의하고, 맞는 데이터를 모으고 다듬는 일이 성능의 열쇠
→ Data-centric 관점에서 AI 성능을 높이는 가장 첫 번째 단계는 Task Definition