2603.24631v1 Mar 25, 2026 cs.SE

TRAJEVAL: 코드 에이전트 실행 경로 분해를 통한 미세 수준 진단

TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis

T. Zhuo
T. Zhuo
Citations: 4
h-index: 2
Myeongsoo Kim
Myeongsoo Kim
Citations: 369
h-index: 10
Dingmin Wang
Dingmin Wang
Citations: 51
h-index: 3
Siwei Cui
Siwei Cui
Citations: 186
h-index: 6
Farima Farmahinifarahani
Farima Farmahinifarahani
Citations: 239
h-index: 5
Shweta Garg
Shweta Garg
Citations: 291
h-index: 9
Baishakhi Ray
Baishakhi Ray
Citations: 301
h-index: 6
Rajdeep Mukherjee
Rajdeep Mukherjee
Citations: 31
h-index: 2
Varun Kumar
Varun Kumar
Amazon
Citations: 2,173
h-index: 19

코드 에이전트는 GitHub 이슈를 자율적으로 해결할 수 있지만, 실패할 경우 현재 평가 방식으로는 실패 원인과 위치를 파악하기 어렵습니다. Pass@1과 같은 지표는 전체 실행 과정을 하나의 이진 결과로 압축하기 때문에, 에이전트가 어떤 부분에서 잘못되었는지 파악하기 어렵습니다. 이러한 한계를 극복하기 위해, 우리는 TRAJEVAL이라는 진단 프레임워크를 소개합니다. TRAJEVAL은 에이전트 실행 경로를 검색(파일 위치 찾기), 읽기(함수 이해), 수정(수정 대상 지정)의 세 가지 해석 가능한 단계로 분해합니다. 각 단계별로, 참조 패치와 비교하여 정밀도와 재현율을 계산합니다. 세 가지 에이전트 아키텍처와 일곱 모델에 대한 16,758개의 실행 경로를 분석한 결과, 보편적인 비효율성(모든 에이전트가 필요 이상으로 약 22배 많은 함수를 검토함)이 발견되었지만, 동시에 뚜렷한 실패 모드도 확인되었습니다. GPT-5는 관련 코드를 찾지만, 수정 대상을 잘못 지정하는 반면, Qwen-32B는 파일 검색 자체에 실패합니다. 이러한 진단 결과가 예측력과 실용성을 갖는다는 것을 검증했습니다. 모델 수준의 Pass@1 예측 정확도는 0.87-2.1%의 평균 절대 오차(MAE)를 달성했으며, 실행 경로 신호 기반의 실시간 피드백은 최첨단 모델 두 가지의 성능을 2.2-4.6% 향상시키면서 비용을 20-31% 절감했습니다. 이러한 결과는 TRAJEVAL이 에이전트의 행동을 더욱 미세하게 분석할 뿐만 아니라, 진단 정보를 실제 성능 향상으로 연결할 수 있음을 보여줍니다. 더 넓은 관점에서, TRAJEVAL은 에이전트 평가 방식을 결과 중심의 벤치마킹에서 벗어나, 에이전트의 성공과 실패 원리를 규명하는 메커니즘 기반의 진단으로 전환합니다.

Original Abstract

Code agents can autonomously resolve GitHub issues, yet when they fail, current evaluation provides no visibility into where or why. Metrics such as Pass@1 collapse an entire execution into a single binary outcome, making it difficult to identify where and why the agent went wrong. To address this limitation, we introduce TRAJEVAL, a diagnostic framework that decomposes agent trajectories into three interpretable stages: search (file localization), read (function comprehension), and edit (modification targeting). For each stage, we compute precision and recall by comparing against reference patches. Analyzing 16,758 trajectories across three agent architectures and seven models, we find universal inefficiencies (all agents examine approximately 22x more functions than necessary) yet distinct failure modes: GPT-5 locates relevant code but targets edits incorrectly, while Qwen-32B fails at file discovery entirely. We validate that these diagnostics are predictive, achieving model-level Pass@1 prediction within 0.87-2.1% MAE, and actionable: real-time feedback based on trajectory signals improves two state-of-the-art models by 2.2-4.6 percentage points while reducing costs by 20-31%. These results demonstrate that our framework not only provides a more fine-grained analysis of agent behavior, but also translates diagnostic signals into tangible performance gains. More broadly, TRAJEVAL transforms agent evaluation beyond outcome-based benchmarking toward mechanism-driven diagnosis of agent success and failure.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!