Types of XAI Methods
인공지능의 ‘판단 근거’를 이해하는 세 가지 접근법: 모델을 블랙박스로 해석하는 Model-agnostic, 내부 구조를 분석하는 Model-transparent, 그리고 학습 데이터를 근거로 설명하는 Training data based 방법
3가지가 있음
Model-agnostic methods
Model-transparent methods
Training data based explanation methods
1️⃣ Model-agnostic methods
모델을 블랙박스로 보고 입력과 출력의 관계를 근사적으로 설명하는 방법
이 방법은 모델 내부 구조를 몰라도 사용할 수 있음
“이 입력이 이런 출력을 만든 이유”를 외부에서 관찰하여 설명
💡 핵심 아이디어
- 모델 내부를 열어보지 않고 입력-출력 간 관계를 단순화해 설명
- 모델 종류에 상관없이 사용 가능
🧩 대표 기법
- LIME(Local Interpretable Model-agnostic Explanations)
→ 특정 예측 근처에서 선형 모델을 만들어 “이 근처에서는 이런 특징이 영향을 줬다”고 설명
- SHAP(SHapley Additive exPlanations)
→ 게임이론 기반으로, 각 피처가 예측에 얼마나 기여했는지 수치화
- Anchor
→ 모델 예측을 고정시키는 조건을 규칙 형태로 제시
⚖️ 장단점
| 장점 | 단점 |
| 대부분의 모델에 적용 가능 | 모델 내부를 직접 해석하진 못함 |
| 구현이 쉽고 시각화가 용이 | 근사모델의 정확도에 따라 설명 신뢰도가 달라짐 |
2️⃣ Model-transparent methods
모델의 내부 구조(DNN 레이어 등)를 직접 분석해 무엇을 보고 판단했는가를 설명
이 방식은 딥러닝 모델 내부 정보에 접근할 수 있을 때 사용할 수 있음
특히 이미지 인식 분야에서 자주 활용됨
💡 핵심 아이디어
- 모델 내부의 은닉층 활성화 값이나 gradient 정보를 이용해 어떤 입력 부분이 예측에 영향을 미쳤는지를 시각적으로 보여줌
🧩 대표 기법
- Saliency Map
→ 입력 이미지에서 모델이 주목한 부분(픽셀 단위 중요도)을 표시
- CAM(Class Activation Map)
→ 특정 클래스에 대해 CNN의 어떤 영역이 중요한지 시각화
- Grad-CAM
→ CAM을 일반화하여 다양한 CNN 구조에서도 사용 가능하게 개선한 버전
Gradient 값까지 이용하도록 개선한 버전
⚖️ 장단점
| 장점 | 단점 |
| 모델 내부의 실제 작동 과정을 파악 가능 | 특정 구조(CNN 등)에 종속 |
| 시각적으로 직관적인 설명 제공 | 적용 범위가 제한적 |
3️⃣ Training data based explanation methods
“왜 이런 예측이 나왔는가?”를 비슷한 학습 데이터 사례로 설명하는 방법
이 방법은 모델이 과거에 어떤 데이터를 학습했는지 살펴봄
“이 입력은 과거 이런 데이터를 봤기 때문에 이렇게 판단했다”는 식으로 설명
💡 핵심 아이디어
- 모델이 예측한 결과를 훈련 데이터 내 유사 샘플과 비교
- 인간이 보기에도 이해하기 쉬운 ‘사례 기반 설명’ 제공
🧩 주요 접근 방식
- Prototype-based Explanation
- 모델이 학습한 “대표 사례”를 통해 예측을 설명하는 방법
- 모델은 학습 데이터 중에서 각 클래스(혹은 특성)를 가장 잘 대표하는 프로토타입 샘플을 학습
- 새로운 입력이 들어오면, 어떤 프로토타입과 가장 비슷했는지를 근거로 판단을 설명
- 설명이 사례 기반이라 사람이 쉽게 이해 가능
- 모델의 신뢰성을 시각적으로 확인할 수 있음
- 훈련 데이터에 편향이 있으면 프로토타입도 왜곡됨
- 고차원 데이터(예: 문장, 영상)의 경우 유사도 정의가 어렵기도 함
장점
단점
- Concept Bottleneck Model(CBM)
- 모델이 예측 전에 명시적인 “개념 벡터(concept)”를 학습하도록 설계한 구조
- 일반적인 딥러닝 모델은 중간층에서 추상적인 feature만을 학습하지만, CBM은 중간층을 “사람이 이해할 수 있는 개념 단위”로 제한(botteleneck)
- 모델의 내부 논리를 사람이 이해 가능한 개념 수준으로 해석 가능
- 모델의 오류 원인을 어떤 개념을 잘못 인식했는지로 추적 가능
- 명시적인 개념 라벨을 제공해야 하므로 데이터 구축 비용이 큼
- 개념 정의가 불명확한 문제(예: 추상적 감정 분석 등)에는 부적합
장점
단점