충성심에 대한 긍정적인 사례: LLM 자체 설명은 모델의 동작 예측에 도움을 준다
A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior
LLM 자체 설명은 AI 감독을 위한 유망한 도구로 제시되지만, 실제 모델의 추론 과정에 대한 충성심은 잘 알려져 있지 않습니다. 기존의 충성심 측정 방법은 중요한 한계를 가지고 있으며, 주로 적대적인 프롬프팅을 통해 충성심 위반을 식별하거나 추론 오류를 감지하는 방식을 사용합니다. 이러한 방법들은 설명의 예측 가치를 간과합니다. 우리는 정규화된 시뮬레이션 이득(NSG)이라는 일반적이고 확장 가능한 측정 지표를 소개합니다. 이 지표는 충성심 있는 설명이 관찰자가 모델의 의사 결정 기준을 학습하고, 따라서 관련 입력에 대한 모델의 동작을 더 잘 예측할 수 있도록 해야 한다는 아이디어에 기반합니다. 우리는 Gemini 3, GPT-5.2, Claude 4.5와 같은 18개의 최첨단 독점 및 오픈 웨이트 모델을 건강, 비즈니스, 윤리와 관련된 인기 데이터 세트에서 추출한 7,000개의 반사실적 예시를 사용하여 평가했습니다. 연구 결과, 자체 설명은 모델의 동작 예측을 크게 향상시키는 것으로 나타났습니다(NSG 11-37%). 또한, 자체 설명은 더 강력한 모델이 생성한 설명보다 더 많은 예측 정보를 제공합니다. 이는 자체 지식을 활용하는 장점이 외부 설명 방법으로는 모방할 수 없음을 의미합니다. 또한, 우리의 접근 방식은 모델 전반에 걸쳐 5-15%의 자체 설명이 심각하게 오해를 불러일으킬 수 있음을 보여줍니다. 이러한 단점에도 불구하고, 자체 설명은 모델의 동작을 예측하는 데 도움이 되는 정보를 담고 있으므로 긍정적인 가치를 지닌다는 것을 입증했습니다.
LLM self-explanations are often presented as a promising tool for AI oversight, yet their faithfulness to the model's true reasoning process is poorly understood. Existing faithfulness metrics have critical limitations, typically relying on identifying unfaithfulness via adversarial prompting or detecting reasoning errors. These methods overlook the predictive value of explanations. We introduce Normalized Simulatability Gain (NSG), a general and scalable metric based on the idea that a faithful explanation should allow an observer to learn a model's decision-making criteria, and thus better predict its behavior on related inputs. We evaluate 18 frontier proprietary and open-weight models, e.g., Gemini 3, GPT-5.2, and Claude 4.5, on 7,000 counterfactuals from popular datasets covering health, business, and ethics. We find self-explanations substantially improve prediction of model behavior (11-37% NSG). Self-explanations also provide more predictive information than explanations generated by external models, even when those models are stronger. This implies an advantage from self-knowledge that external explanation methods cannot replicate. Our approach also reveals that, across models, 5-15% of self-explanations are egregiously misleading. Despite their imperfections, we show a positive case for self-explanations: they encode information that helps predict model behavior.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.