행동 이면의 이유: 에이전트 귀인을 통한 내부 동인 규명
The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution
거대 언어 모델(LLM) 기반 에이전트는 고객 서비스, 웹 탐색, 소프트웨어 엔지니어링과 같은 실제 애플리케이션에서 널리 사용되고 있습니다. 이러한 시스템이 더욱 자율화되고 대규모로 배포됨에 따라, 에이전트가 왜 특정 행동을 취하는지 이해하는 것은 책임성과 거버넌스 측면에서 점점 더 중요해지고 있습니다. 그러나 기존 연구는 주로 실패한 궤적에서 명시적인 오류를 국소화하는 '실패 귀인'에 집중하고 있어, 에이전트 행동 이면의 추론 과정을 설명하기에는 불충분합니다. 이러한 격차를 해소하기 위해, 본 연구는 작업 결과와 관계없이 에이전트 행동을 유발하는 내부 요인을 식별하도록 설계된 '일반적 에이전트 귀인'을 위한 새로운 프레임워크를 제안합니다. 제안하는 프레임워크는 에이전트 상호작용의 복잡성을 관리하기 위해 계층적으로 작동합니다. 구체적으로 '구성 요소 수준'에서는 시간적 우도 동역학을 사용하여 중요한 상호작용 단계를 식별하고, '문장 수준'에서는 섭동 기반 분석을 통해 위치를 정교화하여 특정 텍스트 증거를 분리해냅니다. 우리는 표준 도구 사용 및 기억 유발 편향과 같은 미묘한 신뢰성 위험을 포함한 다양한 에이전트 시나리오에서 프레임워크를 검증했습니다. 실험 결과는 제안된 프레임워크가 에이전트 행동 이면의 핵심적인 과거 사건과 문장을 신뢰성 있게 포착하여, 더 안전하고 책임 있는 에이전트 시스템을 향한 중요한 발판을 마련함을 보여줍니다.
Large Language Model (LLM)-based agents are widely used in real-world applications such as customer service, web navigation, and software engineering. As these systems become more autonomous and are deployed at scale, understanding why an agent takes a particular action becomes increasingly important for accountability and governance. However, existing research predominantly focuses on \textit{failure attribution} to localize explicit errors in unsuccessful trajectories, which is insufficient for explaining the reasoning behind agent behaviors. To bridge this gap, we propose a novel framework for \textbf{general agentic attribution}, designed to identify the internal factors driving agent actions regardless of the task outcome. Our framework operates hierarchically to manage the complexity of agent interactions. Specifically, at the \textit{component level}, we employ temporal likelihood dynamics to identify critical interaction steps; then at the \textit{sentence level}, we refine this localization using perturbation-based analysis to isolate the specific textual evidence. We validate our framework across a diverse suite of agentic scenarios, including standard tool use and subtle reliability risks like memory-induced bias. Experimental results demonstrate that the proposed framework reliably pinpoints pivotal historical events and sentences behind the agent behavior, offering a critical step toward safer and more accountable agentic systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.