SWE-CI: 지속적인 통합을 통한 코드베이스 유지 관리 능력 평가: 에이전트 평가
SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
대규모 언어 모델(LLM) 기반 에이전트는 SWE-bench와 같은 벤치마크에서 정적 버그 수정과 같은 소프트웨어 엔지니어링 작업을 자동화하는 강력한 능력을 보여주었습니다. 그러나 실제 세계에서 성숙한 소프트웨어 개발은 일반적으로 복잡한 요구 사항 변경과 장기적인 기능 반복을 필요로 하며, 이는 정적이고 일회성 수정 방식으로는 제대로 반영할 수 없습니다. 이러한 격차를 해소하기 위해, 우리는 지속적인 통합(CI) 루프를 기반으로 구축된 최초의 레포지토리 수준 벤치마크인 **SWE-CI**를 제안합니다. SWE-CI는 코드 생성 평가 패러다임을 정적이고 단기적인 *기능적 정확성*에서 동적이고 장기적인 *유지 가능성*으로 전환하는 것을 목표로 합니다. 이 벤치마크는 100개의 작업으로 구성되어 있으며, 각 작업은 실제 코드 레포지토리에서 평균 233일 동안 지속된 71개의 연속적인 커밋 이력에 해당합니다. SWE-CI는 에이전트가 분석 및 코딩 반복의 수십 번의 단계를 거쳐 이러한 작업을 체계적으로 해결하도록 요구합니다. SWE-CI는 에이전트가 장기적인 진화 과정에서 코드 품질을 얼마나 잘 유지할 수 있는지에 대한 귀중한 통찰력을 제공합니다.
Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench. However, in the real world, the development of mature software is typically predicated on complex requirement changes and long-term feature iterations -- a process that static, one-shot repair paradigms fail to capture. To bridge this gap, we propose \textbf{SWE-CI}, the first repository-level benchmark built upon the Continuous Integration loop, aiming to shift the evaluation paradigm for code generation from static, short-term \textit{functional correctness} toward dynamic, long-term \textit{maintainability}. The benchmark comprises 100 tasks, each corresponding on average to an evolution history spanning 233 days and 71 consecutive commits in a real-world code repository. SWE-CI requires agents to systematically resolve these tasks through dozens of rounds of analysis and coding iterations. SWE-CI provides valuable insights into how well agents can sustain code quality throughout long-term evolution.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.