SWE-Chain: 체인형 릴리스 레벨 패키지 업그레이드에 대한 코딩 에이전트 벤치마킹
SWE-Chain: Benchmarking Coding Agents on Chained Release-Level Package Upgrades
대규모 언어 모델을 기반으로 하는 코딩 에이전트는 개별 문제 해결을 넘어 실제 소프트웨어 유지 보수 작업을 수행할 것으로 기대됩니다. 기존 벤치마크는 실제 소프트웨어 진화를 지향하고 있지만, 패키지 릴리스의 세분화된 수준에서의 지속적인 유지 보수를 제대로 반영하는 경우는 드뭅니다. 여기서 패키지는 변경 사항이 묶여 배포되고 후속 버전에서 상속됩니다. 본 논문에서는 체인형 릴리스 레벨 패키지 업그레이드에 대한 에이전트 평가를 위한 벤치마크인 SWE-Chain을 소개합니다. SWE-Chain에서는 각 전환이 에이전트의 이전 코드베이스를 기반으로 합니다. 업그레이드 사양을 생성하기 위해, 우리는 각 버전 전환에 대한 릴리스 노트를 코드 차이점과 연결하는 분할 정복 합성 파이프라인을 설계했습니다. 이를 통해 요구 사항이 실제 코드 변경 사항에 기반하도록 하고, 에이전트에게 유용한 정보를 제공하며, 구현 가능하도록 합니다. SWE-Chain은 9개의 실제 Python 패키지에 걸쳐 12개의 업그레이드 체인을 포함하며, 155개의 버전 전환과 1,660개의 실제 코드 변경 사항에 기반한 업그레이드 요구 사항을 포함합니다. 9가지 최첨단 에이전트 모델 구성에서, 에이전트는 Build+Fix 체제에서 평균 44.8%의 문제 해결률, 65.4%의 정밀도, 50.2%의 F1 점수를 달성했습니다. Claude-Opus-4.7 (Claude Code)는 60.8%의 문제 해결률, 80.6%의 정밀도, 68.5%의 F1 점수로 가장 높은 성능을 보였습니다. 이러한 결과는 SWE-Chain이 실현 가능하고 차별성이 있으며, 현재의 에이전트가 기존 기능을 손상시키지 않고 체인형 패키지 릴리스를 통해 올바른 업그레이드를 수행하는 데 어려움을 겪고 있음을 보여줍니다.
Coding agents powered by large language models are increasingly expected to perform realistic software maintenance tasks beyond isolated issue resolution. Existing benchmarks have shifted toward realistic software evolution, but they rarely capture continuous maintenance at the granularity of package releases, where changes are bundled, shipped, and inherited by subsequent versions. We present SWE-Chain, a benchmark for evaluating agents on chained release-level package upgrades, where each transition builds on the agent's prior codebase. To produce upgrade specifications, we design a divide-and-conquer synthesis pipeline that aligns release notes with code diffs for each version transition, ensuring the requirements are grounded in actual code changes, informative to agents, and feasible to implement. SWE-Chain contains 12 upgrade chains across 9 real Python packages, with 155 version transitions and 1,660 grounded upgrade requirements. Across nine frontier agent-model configurations, agents achieve an average of 44.8% resolving, 65.4% precision, and 50.2% F1 under the Build+Fix regime, with Claude-Opus-4.7 (Claude Code) leading at 60.8% resolving, 80.6% precision, and 68.5% F1. These results show that SWE-Chain is both feasible and discriminative, and reveal that current agents still struggle to make correct upgrades across chained package releases without breaking existing functionality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.