sol’s blog

Data Centric AI

sol-commits
sol-commits Sep 30, 2025
Callout icon'

요약

  • 딥러닝의 성공 공식
    • : 모델 설계(아키텍처)만 잘하면 된다 → 데이터를 더 잘 준비하고 활용해야 성능이 안정적으로 오른다

  • 시대 흐름
    • 핵심: 라벨에 덜 의존하고 데이터 스케일·다양성·품질로 승부하는 방향
      1. 전통 ML(feature engineering)
      1. 딥러닝 + 지도학습(architecture engineering)
          • 딥러닝은 엔드투엔드 학습을 통해 특징까지 자동으로 배움. 그 대가로 대규모의 라벨링된 데이터 필요
      1. 준·자기지도(objective engineering)
      1. 전이학습/파운데이션 모델(fine-tuning, 특히 PEFT)로 진화
  • Data-centric AI의 골자
    • 모델을 바꾸기 전에, 데이터부터 바르게
    • 임의의 모델로도 학습 데이터셋을 개선하면 성능을 끌어올릴 수 있다
    • 즉, 모델을 바꾸기보다 데이터 정의·수집·라벨·품질·분포·증강·평가 루프를 체계화하는 것이 중요
 

supervised learning

  • 특징
    • 대규모 라벨 데이터로 end-to-end 학습
    • architecture 설계 경쟁(CNN, VGG, ResNet …)
    • ImageNet에서 Top-5 error 급락이 상징적, 그러나 라벨링 비용이 병목
  • 한계
    • 새 서비스 = 새 태스크 = 새 라벨링 비용
    • 데이터가 커질수록 성능은 오르지만 라벨 수집의 경제성이 떨어짐
 

semi-supervised learning

  • 아이디어: 라벨 소수 + 언라벨 다수를 함께 학습
  • 핵심 목적함수
    • consistency regularization: 입력을 살짝 바꿔도 출력은 변하지 않게(smoothness)
      • 언라벨 데이터는 공짜로 많으니, 모델이 비슷한 입력은 같은 클래스일 것 이라고 추측하면서 학습
    • entropy 최소화/유사 아이디어로 언라벨의 예측을 안정화
      • → 라벨 의존도⬇️, 데이터 활용도⬆️

 

self-supervised learning

  • 핵심
    • 라벨 없이 데이터에서 표현(특징)을 스스로 학습 → 훌륭한 특징 추출기(Foundation Model)를 만든 뒤 다운스트림에 광범위 이식
  • objective engineering
    • self-prediction/masked/contrastive 등 라벨 없는 자기예측 과제로 학습
    • architecture bias ⬇️, objective engineering ⬆️
 

transfer learning & fine tuning

  • 전이 프로토콜
    • pretraining(대규모 언라벨/라벨 혼합) → 파인 튜닝(소량 라벨)
    • 기존 supervised learning을 대체하기보다 데이터가 적은 현실에 잘 맞는 프레임
  • PEFT(파라미터 효율적 파인튜닝)
    • Adapters, Prefix-tuning, LoRA 등으로 일부분만 학습해 저장/메모리/계산을 아끼면서 성능 확보
      • LoRA
        (Low-Rank Adaptation)
        • 저차원 행렬 분해 아이디어
        • 기존 거대한 가중치 행렬 W를 그대로 두고, 변화량만을 저랭크(낮은 차원) 행렬의 곱으로 근사해 학습 → 파라미터 수와 연산량이 줄어들면서도 성능은 유지 가능
    • 기반 모델은 고정, 얇은 델타만 학습
    • 장점
        1. storage efficiency
        1. memory efficiency
        1. computation efficiency
        1. prediction performance
 

Model-centric → Data-centric

  • 정의의 차이
    • Model-centric: “주어진 데이터셋” 위에서 최적 모델 찾기
    • Data-cetric: 임의의 모델이라도 데이터셋을 개선해 성능을 끌어올리기
  • 근거
    • DNN은 랜덤 라벨도 암기할만큼 표현력이 강함 → 오히려 데이터 품질/정의가 성패를 가름
    • 라벨 비용·지속가능성 문제와 파운데이션 모델의 부상이 데이터 중심 접근을 촉진
  • 결론
    • 태스크를 명확히 정의하고, 맞는 데이터를 모으고 다듬는 일이 성능의 열쇠
      • → Data-centric 관점에서 AI 성능을 높이는 가장 첫 번째 단계는 Task Definition

추천 글

BlogPro logo
Made with BlogPro

태그