의도적인 불복종: 에이전트 실행 기록의 오류 자동 감지
Willful Disobedience: Automatically Detecting Failures in Agentic Traces
인공지능 에이전트가 실제 소프트웨어 시스템에 점점 더 많이 통합되면서, 이들은 다단계 워크플로우를 수행하며, 다중 턴 대화, 도구 호출, 그리고 중간 결정을 내립니다. 이러한 긴 실행 기록, 즉 '에이전트 실행 기록'은 검증을 어렵게 만듭니다. 결과만을 기반으로 한 벤치마크는 잘못된 워크플로우 경로, 안전하지 않은 도구 사용, 또는 프롬프트에서 지정된 규칙 위반과 같은 중요한 절차적 오류를 놓칠 수 있습니다. 본 논문에서는 에이전트 실행 기록을 체계적으로 평가하기 위해 설계된 AI 기반 도구인 AgentPex를 소개합니다. AgentPex는 에이전트 프롬프트와 시스템 지침에서 행동 규칙을 추출하고, 이러한 사양을 사용하여 실행 기록이 사양을 준수하는지 자동으로 평가합니다. 우리는 통신, 소매, 항공 고객 서비스 분야의 다양한 모델에서 수집된 424개의 실행 기록을 사용하여 AgentPex를 평가했습니다. 결과는 AgentPex가 모델 간의 에이전트 행동을 구별하고, 결과 기반 평가로는 포착할 수 없는 사양 위반 사항을 식별한다는 것을 보여줍니다. 또한 AgentPex는 도메인 및 지표별 세분화된 분석을 제공하여 개발자가 에이전트의 강점과 약점을 대규모로 이해할 수 있도록 지원합니다.
AI agents are increasingly embedded in real software systems, where they execute multi-step workflows through multi-turn dialogue, tool invocations, and intermediate decisions. These long execution histories, called agentic traces, make validation difficult. Outcome-only benchmarks can miss critical procedural failures, such as incorrect workflow routing, unsafe tool usage, or violations of prompt-specified rules. This paper presents AgentPex, an AI-powered tool designed to systematically evaluate agentic traces. AgentPex extracts behavioral rules from agent prompts and system instructions, then uses these specifications to automatically evaluate traces for compliance. We evaluate AgentPex on 424 traces from τ2-bench across models in telecom, retail, and airline customer service. Our results show that AgentPex distinguishes agent behavior across models and surfaces specification violations that are not captured by outcome-only scoring. It also provides fine-grained analysis by domain and metric, enabling developers to understand agent strengths and weaknesses at scale.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.