실제 환경에서의 대비적 설명력 분석: 실제 벤치마크에서 LLM 실패 사례에 대한 해석 가능성 분석
Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks
해석 가능성 도구는 점점 더 많이 사용되어 대규모 언어 모델(LLM)의 실패 사례를 분석하는 데 활용되고 있지만, 기존 연구는 주로 짧은 프롬프트나 단순한 환경에 초점을 맞추어, 널리 사용되는 벤치마크에서의 LLM의 동작 방식은 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 실제 환경에서 LLM의 실패 사례를 분석하는 실용적인 도구로서 대비적 LRP 기반 설명력을 연구합니다. 우리는 실패 분석을 *대비적 설명력*으로 정의하고, 잘못된 출력 토큰과 올바른 대체 토큰 간의 로짓 차이를 입력 토큰과 내부 모델 상태에 연결하여 분석합니다. 또한, 긴 문맥 입력을 위한 레이어 간 설명력 그래프를 구축할 수 있는 효율적인 확장 기능을 소개합니다. 이 프레임워크를 사용하여 여러 벤치마크에서 체계적인 경험적 연구를 수행하고, 데이터 세트, 모델 크기 및 학습 시점에 따른 설명 패턴을 비교합니다. 우리의 결과는 이 토큰 수준의 대비적 설명력이 일부 실패 사례에서 유용한 정보를 제공할 수 있지만, 모든 경우에 적용될 수 있는 것은 아니며, 이는 실제 LLM 실패 분석에 대한 유용성과 한계를 동시에 보여줍니다. 저희 코드는 다음 링크에서 확인하실 수 있습니다: https://aka.ms/Debug-XAI.
Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as \textit{contrastive attribution}, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.