실험실에서 실제 응용까지: 리포지토리 수준의 에이전트 기반 코드 추론 벤치마킹
From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level
대규모 언어 모델(LLM)이 자율 에이전트로 진화함에 따라, 방대한 규모의 실제 환경에서 서로 의존하는 파일 시스템 전반에 걸쳐 논리적 일관성을 유지하는 '리포지토리 수준 추론' 능력에 대한 평가는 매우 중요해졌습니다. 현재 벤치마크는 일반적으로 격리된 코드 조각 또는 블랙박스 평가 간에만 이루어지는 경향이 있습니다. 본 연구에서는 귀납적 추론 검증을 중심으로 한 투명한 진단 벤치마크인 RepoReason을 제시합니다. 암기 현상을 줄이면서도 진정한 논리적 깊이를 유지하기 위해, 환경을 의미론적 오라클로 활용하여 실제 상태를 재현하는 실행 기반 변환 프레임워크를 구현했습니다. 또한, 동적 프로그램 슬라이싱을 사용하여 세밀한 진단 시스템을 구축하고, 세 가지 직교적인 지표($ESV$ (읽기 부하), $MCL$ (시뮬레이션 깊이), $DFI$ (통합 폭))를 통해 추론 능력을 정량화합니다. 최첨단 모델(예: Claude-4.5-Sonnet, DeepSeek-v3.1-Terminus)에 대한 종합적인 평가는 통합 폭이 주요 인지적 병목 현상으로 작용하는 광범위한 집계 부족 현상을 보여줍니다. 본 연구의 결과는 차세대 에이전트 기반 소프트웨어 엔지니어링을 최적화하기 위한 세밀한 투명성 기반의 통찰력을 제공합니다.
As large language models (LLMs) evolve into autonomous agents, evaluating repository-level reasoning, the ability to maintain logical consistency across massive, real-world, interdependent file systems, has become critical. Current benchmarks typically fluctuate between isolated code snippets and black-box evaluations. We present RepoReason, a white-box diagnostic benchmark centered on abductive assertion verification. To eliminate memorization while preserving authentic logical depth, we implement an execution-driven mutation framework that utilizes the environment as a semantic oracle to regenerate ground-truth states. Furthermore, we establish a fine-grained diagnostic system using dynamic program slicing, quantifying reasoning via three orthogonal metrics: $ESV$ (reading load), $MCL$ (simulation depth), and $DFI$ (integration width). Comprehensive evaluations of frontier models (e.g., Claude-4.5-Sonnet, DeepSeek-v3.1-Terminus) reveal a prevalent aggregation deficit, where integration width serves as the primary cognitive bottleneck. Our findings provide granular white-box insights for optimizing the next generation of agentic software engineering.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.