2601.15075v2 Jan 21, 2026 cs.AI

행동의 이유: 에이전트 속성 기반 내부 요인 분석

The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

Dongrui Liu
Dongrui Liu
Citations: 238
h-index: 5
Qihan Ren
Qihan Ren
Citations: 218
h-index: 5
Shuai Shao
Shuai Shao
Citations: 23
h-index: 2
Ling Tang
Ling Tang
Citations: 8
h-index: 2
Jilin Mei
Jilin Mei
Citations: 2
h-index: 1
Dadi Guo
Dadi Guo
Citations: 1
h-index: 1
Junyao Yang
Junyao Yang
Citations: 41
h-index: 2
Jing Shao
Jing Shao
Citations: 18
h-index: 2
Chen Qian
Chen Qian
Citations: 213
h-index: 7
Peng Wang
Peng Wang
Citations: 16
h-index: 1
Yong Liu
Yong Liu
Citations: 158
h-index: 5
Xia Hu
Xia Hu
Citations: 2
h-index: 1
J. Fu
J. Fu
Citations: 101
h-index: 4

대규모 언어 모델(LLM) 기반 에이전트는 고객 서비스, 웹 탐색, 소프트웨어 엔지니어링 등 다양한 실세계 응용 분야에서 널리 사용되고 있습니다. 이러한 시스템이 더욱 자율적으로 작동하고 대규모로 배포됨에 따라, 에이전트가 특정 행동을 수행하는 이유를 이해하는 것은 책임성과 거버넌스에 매우 중요합니다. 그러나 기존 연구는 주로 실패 원인 분석에 집중하여, 비효율적인 경로에서 발생하는 명확한 오류를 파악하는 데 초점을 맞추고 있으며, 이는 에이전트 행동의 extbf{근본적인 이유}를 설명하기에는 부족합니다. 이러한 격차를 해소하기 위해, 우리는 작업 결과에 관계없이 에이전트 행동을 유발하는 내부 요인을 식별하는 extbf{일반적인 에이전트 속성 기반 분석} 프레임워크를 제안합니다. 제안하는 프레임워크는 에이전트 상호 작용의 복잡성을 관리하기 위해 계층적으로 작동합니다. 구체적으로, extit{컴포넌트 수준}에서는 시계열적 가능성 동역학을 사용하여 중요한 상호 작용 단계를 식별하고, extit{문장 수준}에서는 교란 기반 분석을 활용하여 특정 텍스트 증거를 분리합니다. 우리는 표준 도구 사용 및 메모리 기반 편향과 같은 미묘한 신뢰성 위험을 포함한 다양한 에이전트 시나리오에서 제안하는 프레임워크를 검증했습니다. 실험 결과는 제안하는 프레임워크가 에이전트 행동 뒤에 있는 중요한 역사적 사건과 문장을 안정적으로 식별하며, 더 안전하고 책임감 있는 에이전트 시스템 개발을 위한 중요한 발걸음을 제공한다는 것을 보여줍니다. 관련 코드는 https://github.com/AI45Lab/AgentDoG 에서 확인할 수 있습니다.

Original Abstract

Large Language Model (LLM)-based agents are widely used in real-world applications such as customer service, web navigation, and software engineering. As these systems become more autonomous and are deployed at scale, understanding why an agent takes a particular action becomes increasingly important for accountability and governance. However, existing research predominantly focuses on \textit{failure attribution} to localize explicit errors in unsuccessful trajectories, which is insufficient for explaining \textbf{the reason behind agent behaviors}. To bridge this gap, we propose a novel framework for \textbf{general agentic attribution}, designed to identify the internal factors driving agent actions regardless of the task outcome. Our framework operates hierarchically to manage the complexity of agent interactions. Specifically, at the \textit{component level}, we employ temporal likelihood dynamics to identify critical interaction steps; then at the \textit{sentence level}, we refine this localization using perturbation-based analysis to isolate the specific textual evidence. We validate our framework across a diverse suite of agentic scenarios, including standard tool use and subtle reliability risks like memory-induced bias. Experimental results demonstrate that the proposed framework reliably pinpoints pivotal historical events and sentences behind the agent behavior, offering a critical step toward safer and more accountable agentic systems. Codes are available at https://github.com/AI45Lab/AgentDoG.

0 Citations
0 Influential
53.134630129852 Altmetric
265.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!