Types of XAI Methods

3가지가 있음

Model-agnostic methods

Model-transparent methods

Training data based explanation methods

1️⃣ Model-agnostic methods

모델을 블랙박스로 보고 입력과 출력의 관계를 근사적으로 설명하는 방법

이 방법은 모델 내부 구조를 몰라도 사용할 수 있음

“이 입력이 이런 출력을 만든 이유”를 외부에서 관찰하여 설명

💡 핵심 아이디어

모델 내부를 열어보지 않고 입력-출력 간 관계를 단순화해 설명

모델 종류에 상관없이 사용 가능

🧩 대표 기법

LIME(Local Interpretable Model-agnostic Explanations)

→ 특정 예측 근처에서 선형 모델을 만들어 “이 근처에서는 이런 특징이 영향을 줬다”고 설명

SHAP(SHapley Additive exPlanations)

→ 게임이론 기반으로, 각 피처가 예측에 얼마나 기여했는지 수치화

Anchor

→ 모델 예측을 고정시키는 조건을 규칙 형태로 제시

⚖️ 장단점

장점	단점
대부분의 모델에 적용 가능	모델 내부를 직접 해석하진 못함
구현이 쉽고 시각화가 용이	근사모델의 정확도에 따라 설명 신뢰도가 달라짐

2️⃣ Model-transparent methods

모델의 내부 구조(DNN 레이어 등)를 직접 분석해 무엇을 보고 판단했는가를 설명

이 방식은 딥러닝 모델 내부 정보에 접근할 수 있을 때 사용할 수 있음

특히 이미지 인식 분야에서 자주 활용됨

💡 핵심 아이디어

모델 내부의 은닉층 활성화 값이나 gradient 정보를 이용해 어떤 입력 부분이 예측에 영향을 미쳤는지를 시각적으로 보여줌

🧩 대표 기법

Saliency Map

→ 입력 이미지에서 모델이 주목한 부분(픽셀 단위 중요도)을 표시

CAM(Class Activation Map)

→ 특정 클래스에 대해 CNN의 어떤 영역이 중요한지 시각화

Grad-CAM

→ CAM을 일반화하여 다양한 CNN 구조에서도 사용 가능하게 개선한 버전

Gradient 값까지 이용하도록 개선한 버전

⚖️ 장단점

장점	단점
모델 내부의 실제 작동 과정을 파악 가능	특정 구조(CNN 등)에 종속
시각적으로 직관적인 설명 제공	적용 범위가 제한적

3️⃣ Training data based explanation methods

“왜 이런 예측이 나왔는가?”를 비슷한 학습 데이터 사례로 설명하는 방법

이 방법은 모델이 과거에 어떤 데이터를 학습했는지 살펴봄

“이 입력은 과거 이런 데이터를 봤기 때문에 이렇게 판단했다”는 식으로 설명

💡 핵심 아이디어

모델이 예측한 결과를 훈련 데이터 내 유사 샘플과 비교

인간이 보기에도 이해하기 쉬운 ‘사례 기반 설명’ 제공

🧩 주요 접근 방식

Prototype-based Explanation

모델이 학습한 “대표 사례”를 통해 예측을 설명하는 방법
모델은 학습 데이터 중에서 각 클래스(혹은 특성)를 가장 잘 대표하는 프로토타입 샘플을 학습
새로운 입력이 들어오면, 어떤 프로토타입과 가장 비슷했는지를 근거로 판단을 설명

장점

설명이 사례 기반이라 사람이 쉽게 이해 가능

모델의 신뢰성을 시각적으로 확인할 수 있음

단점

훈련 데이터에 편향이 있으면 프로토타입도 왜곡됨

고차원 데이터(예: 문장, 영상)의 경우 유사도 정의가 어렵기도 함

Concept Bottleneck Model(CBM)

모델이 예측 전에 명시적인 “개념 벡터(concept)”를 학습하도록 설계한 구조
일반적인 딥러닝 모델은 중간층에서 추상적인 feature만을 학습하지만, CBM은 중간층을 “사람이 이해할 수 있는 개념 단위”로 제한(botteleneck)

장점

모델의 내부 논리를 사람이 이해 가능한 개념 수준으로 해석 가능

모델의 오류 원인을 어떤 개념을 잘못 인식했는지로 추적 가능

단점

명시적인 개념 라벨을 제공해야 하므로 데이터 구축 비용이 큼

개념 정의가 불명확한 문제(예: 추상적 감정 분석 등)에는 부적합

Types of XAI Methods

1️⃣ Model-agnostic methods

2️⃣ Model-transparent methods

3️⃣ Training data based explanation methods

CONTENTS

추천 글

퍼널 분석, 코호트 분석

Human Variability and Accommodation

KJ method

태그

DL 프로젝트 - 운전자 이상 행동 분류

DL 프로젝트 - 포켓몬

ML - 내향/외향 분류

ML 프로젝트 - 밈코인 성공 예측

NLP

NLP - 감사보고서 기반 QA 시스템

P2P 대출 부도예측 및 sharpe ratio 최적화 모델

UX리서치

XAI

데이터분석

머신러닝/딥러닝

생성형 AI

시각화 - 내향/외향 분류

코테

프롬프팅