Data Centric AI

요약

딥러닝의 성공 공식

: 모델 설계(아키텍처)만 잘하면 된다 → 데이터를 더 잘 준비하고 활용해야 성능이 안정적으로 오른다

시대 흐름

핵심: 라벨에 덜 의존하고 데이터 스케일·다양성·품질로 승부하는 방향

전통 ML(feature engineering)

딥러닝 + 지도학습(architecture engineering)

딥러닝은 엔드투엔드 학습을 통해 특징까지 자동으로 배움. 그 대가로 대규모의 라벨링된 데이터 필요

준·자기지도(objective engineering)

전이학습/파운데이션 모델(fine-tuning, 특히 PEFT)로 진화

Data-centric AI의 골자

모델을 바꾸기 전에, 데이터부터 바르게

임의의 모델로도 학습 데이터셋을 개선하면 성능을 끌어올릴 수 있다
즉, 모델을 바꾸기보다 데이터 정의·수집·라벨·품질·분포·증강·평가 루프를 체계화하는 것이 중요

supervised learning

특징

대규모 라벨 데이터로 end-to-end 학습
architecture 설계 경쟁(CNN, VGG, ResNet …)
ImageNet에서 Top-5 error 급락이 상징적, 그러나 라벨링 비용이 병목

한계

새 서비스 = 새 태스크 = 새 라벨링 비용
데이터가 커질수록 성능은 오르지만 라벨 수집의 경제성이 떨어짐

semi-supervised learning

아이디어: 라벨 소수 + 언라벨 다수를 함께 학습

핵심 목적함수

consistency regularization: 입력을 살짝 바꿔도 출력은 변하지 않게(smoothness)

언라벨 데이터는 공짜로 많으니, 모델이 비슷한 입력은 같은 클래스일 것 이라고 추측하면서 학습

entropy 최소화/유사 아이디어로 언라벨의 예측을 안정화

→ 라벨 의존도⬇️, 데이터 활용도⬆️

self-supervised learning

핵심

라벨 없이 데이터에서 표현(특징)을 스스로 학습 → 훌륭한 특징 추출기(Foundation Model)를 만든 뒤 다운스트림에 광범위 이식

objective engineering

self-prediction/masked/contrastive 등 라벨 없는 자기예측 과제로 학습
architecture bias ⬇️, objective engineering ⬆️

transfer learning & fine tuning

전이 프로토콜

pretraining(대규모 언라벨/라벨 혼합) → 파인 튜닝(소량 라벨)
기존 supervised learning을 대체하기보다 데이터가 적은 현실에 잘 맞는 프레임

PEFT(파라미터 효율적 파인튜닝)

Adapters, Prefix-tuning, LoRA 등으로 일부분만 학습해 저장/메모리/계산을 아끼면서 성능 확보

LoRA
(Low-Rank Adaptation)

• 저차원 행렬 분해 아이디어
• 기존 거대한 가중치 행렬 W를 그대로 두고, 변화량만을 저랭크(낮은 차원) 행렬의 곱으로 근사해 학습 → 파라미터 수와 연산량이 줄어들면서도 성능은 유지 가능

기반 모델은 고정, 얇은 델타만 학습
장점

storage efficiency

memory efficiency

computation efficiency

prediction performance

Model-centric → Data-centric

정의의 차이

Model-centric: “주어진 데이터셋” 위에서 최적 모델 찾기
Data-cetric: 임의의 모델이라도 데이터셋을 개선해 성능을 끌어올리기

근거

DNN은 랜덤 라벨도 암기할만큼 표현력이 강함 → 오히려 데이터 품질/정의가 성패를 가름
라벨 비용·지속가능성 문제와 파운데이션 모델의 부상이 데이터 중심 접근을 촉진

결론

태스크를 명확히 정의하고, 맞는 데이터를 모으고 다듬는 일이 성능의 열쇠

→ Data-centric 관점에서 AI 성능을 높이는 가장 첫 번째 단계는 Task Definition

Data Centric AI

supervised learning

semi-supervised learning

self-supervised learning

transfer learning & fine tuning

Model-centric → Data-centric

CONTENTS

추천 글

datalake for rental vehicles store using EMR, S3, and Athena

ETL for Rental apartments using Step functions, AWS Glue and Redshift

퍼널 분석, 코호트 분석

태그