통합 정책 경사를 이용한 LLM 추론 해석 및 제어
Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient
대규모 언어 모델(LLM)은 복잡한 실세계 문제를 해결하는 데 강력한 추론 능력을 보여줍니다. 그러나 이러한 복잡한 추론 행동을 이끄는 내부 메커니즘은 여전히 불투명합니다. 기존의 추론 해석 방법은 특정 텍스트 패턴과 관련된 구성 요소(예: 뉴런)를 식별하거나, 인간이 주석을 달아 만든 대조 쌍을 사용하여 제어 벡터를 도출합니다. 결과적으로, 현재의 방법은 복잡한 추론 메커니즘을 정확하게 특정하거나 모델 내부 작동 방식에서 발생하는 순차적인 영향을 추론 결과에 반영하는 데 어려움을 겪습니다. 본 논문에서는 결과 지향적이고 순차적 영향 인지 원칙에 기반하여, 장기적인 효과에 의해 결과가 누적되는 추론 행동에 순차적으로 기여하는 구성 요소를 식별하는 데 중점을 둡니다. 우리는 Integrated Policy Gradient (IPG)라는 새로운 프레임워크를 제안합니다. IPG는 추론 정확도와 같은 복합적인 결과 기반 신호를 모델 추론 경로를 통해 역방향으로 전파하여 모델의 내부 구성 요소에 추론 행동을 귀속시킵니다. 실험 결과는 제안하는 방법이 보다 정확한 위치 추적을 달성하며, 다양한 추론 모델에서 추론 능력 및 추론 강도와 같은 추론 행동을 안정적으로 조절할 수 있음을 보여줍니다.
Large language models (LLMs) demonstrate strong reasoning abilities in solving complex real-world problems. Yet, the internal mechanisms driving these complex reasoning behaviors remain opaque. Existing interpretability approaches targeting reasoning either identify components (e.g., neurons) correlated with special textual patterns, or rely on human-annotated contrastive pairs to derive control vectors. Consequently, current methods struggle to precisely localize complex reasoning mechanisms or capture sequential influence from model internal workings to the reasoning outputs. In this paper, built on outcome-oriented and sequential-influence-aware principles, we focus on identifying components that have sequential contribution to reasoning behavior where outcomes are cumulated by long-range effects. We propose Integrated Policy Gradient (IPG), a novel framework that attributes reasoning behaviors to model's inner components by propagating compound outcome-based signals such as post reasoning accuracy backward through model inference trajectories. Empirical evaluations demonstrate that our approach achieves more precise localization and enables reliable modulation of reasoning behaviors (e.g., reasoning capability, reasoning strength) across diverse reasoning models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.