TraceSIR: 에이전트 실행 추적의 구조화된 분석 및 보고를 위한 멀티 에이전트 프레임워크
TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces
에이전트 시스템은 외부 도구와 반복적인 의사 결정을 통해 대규모 언어 모델을 확장하여 심층 연구, 함수 호출 및 코딩과 같은 복잡한 작업을 가능하게 합니다. 그러나 이러한 시스템의 실행 추적은 길고 복잡하여 오류 진단 및 근본 원인 분석을 매우 어렵게 만듭니다. 수동 검사는 확장 가능하지 않으며, LLM을 원시 추적 데이터에 직접 적용하는 것은 입력 길이 제한 및 신뢰할 수 없는 추론으로 인해 어려움을 겪습니다. 최종 작업 결과에만 초점을 맞추는 것은 정확한 문제 위치 파악에 필요한 중요한 행동 정보를 무시하게 됩니다. 이러한 문제를 해결하기 위해, 본 논문에서는 에이전트 실행 추적의 구조화된 분석 및 보고를 위한 멀티 에이전트 프레임워크인 TraceSIR을 제안합니다. TraceSIR은 세 가지 전문 에이전트를 조정합니다: (1) StructureAgent는 새로운 추상화 형식인 TraceFormat을 도입하여 실행 추적을 압축하면서 필수적인 행동 정보를 보존합니다; (2) InsightAgent는 문제 위치 파악, 근본 원인 분석 및 최적화 제안을 포함한 세밀한 진단을 수행합니다; (3) ReportAgent는 작업 인스턴스 전체의 통찰력을 집계하고 포괄적인 분석 보고서를 생성합니다. TraceSIR의 성능을 평가하기 위해, 세 가지 실제 에이전트 시나리오를 다루는 TraceBench를 구축하고, 산업적 요구 사항에 부합하는 분석 보고서의 품질과 사용성을 평가하기 위한 평가 프로토콜인 ReportEval을 소개합니다. 실험 결과, TraceSIR은 일관성 있고 유익하며 실행 가능한 보고서를 생성하며, 모든 평가 차원에서 기존 접근 방식보다 훨씬 뛰어난 성능을 보였습니다. 본 프로젝트 및 관련 영상은 다음 GitHub 주소에서 공개적으로 이용 가능합니다: https://github.com/SHU-XUN/TraceSIR.
Agentic systems augment large language models with external tools and iterative decision making, enabling complex tasks such as deep research, function calling, and coding. However, their long and intricate execution traces make failure diagnosis and root cause analysis extremely challenging. Manual inspection does not scale, while directly applying LLMs to raw traces is hindered by input length limits and unreliable reasoning. Focusing solely on final task outcomes further discards critical behavioral information required for accurate issue localization. To address these issues, we propose TraceSIR, a multi-agent framework for structured analysis and reporting of agentic execution traces. TraceSIR coordinates three specialized agents: (1) StructureAgent, which introduces a novel abstraction format, TraceFormat, to compress execution traces while preserving essential behavioral information; (2) InsightAgent, which performs fine-grained diagnosis including issue localization, root cause analysis, and optimization suggestions; (3) ReportAgent, which aggregates insights across task instances and generates comprehensive analysis reports. To evaluate TraceSIR, we construct TraceBench, covering three real-world agentic scenarios, and introduce ReportEval, an evaluation protocol for assessing the quality and usability of analysis reports aligned with industry needs. Experiments show that TraceSIR consistently produces coherent, informative, and actionable reports, significantly outperforming existing approaches across all evaluation dimensions. Our project and video are publicly available at https://github.com/SHU-XUN/TraceSIR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.