2604.11061v1 Apr 13, 2026 cs.LG

판도(Pando): 모델이 스스로 설명하지 못할 때, 해석 가능성 방법은 효과가 있을까요?

Pando: Do Interpretability Methods Work When Models Won't Explain Themselves?

Virginia Smith
Virginia Smith
Citations: 63
h-index: 4
Aashiq Muhamed
Aashiq Muhamed
Citations: 345
h-index: 8
Mona T. Diab
Mona T. Diab
Citations: 63
h-index: 4
Aditi Raghunathan
Aditi Raghunathan
Citations: 103
h-index: 4
Ziqian Zhong
Ziqian Zhong
Citations: 32
h-index: 3

메커니즘 기반 해석 가능성은 종종 모델의 정렬성 검증에 사용되지만, 모델이 제공하는 설명이 없거나 불완전하며 오해를 불러일으킬 수 있습니다. 그러나 많은 평가에서 블랙박스 프롬프트만으로도 목표 행동을 재현할 수 있는지 여부를 고려하지 않기 때문에, 화이트박스 도구에서 얻는 겉으로 보이는 이점은 실제 내부 신호가 아닌 유도 효과일 수 있습니다. 우리는 이러한 문제를 '유도 효과'라고 부릅니다. 본 연구에서는 '판도(Pando)'라는 모델-생물체 벤치마크를 소개합니다. 판도는 설명 여부에 따른 축을 통해 이러한 유도 효과를 제거합니다. 모델은 실제 규칙에 대한 정확한 설명을 생성하거나, 설명을 제공하지 않거나, 또는 분리된 주의 규칙에 대한 확신이 있지만 부정확한 설명을 생성하도록 훈련됩니다. 720개의 숨겨진 결정 트리 규칙을 구현한 모델을 사용하여, 에이전트들은 10개의 라벨이 지정된 질의-응답 쌍을 기반으로 모델의 예측을 수행하며, 선택적으로 해석 가능성 도구의 출력을 추가합니다. 설명이 정확할 때, 블랙박스 유도가 모든 화이트박스 방법과 동등하거나 더 나은 성능을 보입니다. 설명이 없거나 오해의 소지가 있을 때, 기울기 기반 속성은 정확도를 3~5% 포인트 향상시키며, 관련성 패치(RelP)는 가장 큰 성능 향상을 제공합니다. 로짓 렌즈, 희소 자동 인코더 및 회로 추적은 신뢰할 수 있는 이점을 제공하지 않습니다. 분산 분석 결과, 기울기는 의사 결정 계산을 추적하며, 출력에 직접적인 영향을 미치는 요소를 식별하는 반면, 다른 측정값은 작업 표현, 필드 식별 및 값에 대한 편향에 의해 지배됩니다. 본 연구에서 사용한 모든 모델, 코드 및 평가 인프라를 공개합니다.

Original Abstract

Mechanistic interpretability is often motivated for alignment auditing, where a model's verbal explanations can be absent, incomplete, or misleading. Yet many evaluations do not control whether black-box prompting alone can recover the target behavior, so apparent gains from white-box tools may reflect elicitation rather than internal signal; we call this the elicitation confounder. We introduce Pando, a model-organism benchmark that breaks this confound via an explanation axis: models are trained to produce either faithful explanations of the true rule, no explanation, or confident but unfaithful explanations of a disjoint distractor rule. Across 720 finetuned models implementing hidden decision-tree rules, agents predict held-out model decisions from $10$ labeled query-response pairs, optionally augmented with one interpretability tool output. When explanations are faithful, black-box elicitation matches or exceeds all white-box methods; when explanations are absent or misleading, gradient-based attribution improves accuracy by 3-5 percentage points, and relevance patching, RelP, gives the largest gains, while logit lens, sparse autoencoders, and circuit tracing provide no reliable benefit. Variance decomposition suggests gradients track decision computation, which fields causally drive the output, whereas other readouts are dominated by task representation, biases toward field identity and value. We release all models, code, and evaluation infrastructure.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!