2601.16407v1 Jan 23, 2026 cs.CL

야코비안 범위(Jacobian Scopes): LLM의 토큰 단위 인과적 기여도 분석

Jacobian Scopes: token-level causal attributions in LLMs

Raphael Sarfati
Raphael Sarfati
Citations: 91
h-index: 5
Toni J. B. Liu
Toni J. B. Liu
Citations: 55
h-index: 4
Baran Zadeoglu
Baran Zadeoglu
Citations: 3
h-index: 1
Christopher J. Earls
Christopher J. Earls
Citations: 8
h-index: 2
N. Boullé
N. Boullé
Citations: 451
h-index: 9

대규모 언어 모델(LLM)은 의미적 설명 및 문맥 내 예제와 같은 문맥에 존재하는 단서들을 기반으로 다음 토큰을 예측합니다. 그러나 현대 아키텍처에서 레이어와 어텐션 헤드의 증식으로 인해 특정 예측에 가장 큰 영향을 미치는 이전 토큰을 파악하는 것은 여전히 어려운 과제입니다. 본 연구에서는 LLM 예측을 해석하기 위한 그래디언트 기반의 토큰 단위 인과적 기여도 분석 방법인 '야코비안 범위(Jacobian Scopes)'를 제안합니다. 야코비안 범위는 입력에 대한 최종 은닉 상태의 선형 관계를 분석하여, 입력 토큰이 모델의 예측에 미치는 영향을 정량화합니다. 우리는 세 가지 변형, 즉 '의미론적 범위(Semantic Scope)', '피셔 범위(Fisher Scope)' 및 '온도 범위(Temperature Scope)'를 소개합니다. 이들은 각각 특정 로짓의 민감도, 전체 예측 분포, 모델의 확신도(역방향 온도)를 타겟으로 합니다. 지시 이해, 번역 및 문맥 내 학습(ICL)을 포함한 다양한 사례 연구를 통해, 야코비안 범위가 암묵적인 정치적 편향을 지시하는 경우와 같은 흥미로운 결과를 발견했습니다. 우리는 제안된 방법들이 최근 논쟁의 대상이 된 문맥 내 시계열 예측의 기본 메커니즘에 대한 통찰력을 제공한다고 믿습니다. 제안된 방법의 코드와 대화형 데모는 https://github.com/AntonioLiu97/JacobianScopes 에서 공개적으로 이용 가능합니다.

Original Abstract

Large language models (LLMs) make next-token predictions based on clues present in their context, such as semantic descriptions and in-context examples. Yet, elucidating which prior tokens most strongly influence a given prediction remains challenging due to the proliferation of layers and attention heads in modern architectures. We propose Jacobian Scopes, a suite of gradient-based, token-level causal attribution methods for interpreting LLM predictions. By analyzing the linearized relations of final hidden state with respect to inputs, Jacobian Scopes quantify how input tokens influence a model's prediction. We introduce three variants - Semantic, Fisher, and Temperature Scopes - which respectively target sensitivity of specific logits, the full predictive distribution, and model confidence (inverse temperature). Through case studies spanning instruction understanding, translation and in-context learning (ICL), we uncover interesting findings, such as when Jacobian Scopes point to implicit political biases. We believe that our proposed methods also shed light on recently debated mechanisms underlying in-context time-series forecasting. Our code and interactive demonstrations are publicly available at https://github.com/AntonioLiu97/JacobianScopes.

2 Citations
0 Influential
33.45879734614 Altmetric
169.3 Score
Original PDF
5

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!