2601.11077v1 Jan 16, 2026 cs.SE

ABC-Bench: 실제 개발 환경에서의 에이전트 기반 백엔드 코딩 성능 측정

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

Zhiheng Xi
Zhiheng Xi
Citations: 1,233
h-index: 16
Zhikai Lei
Zhikai Lei
Citations: 434
h-index: 4
Rui Zheng
Rui Zheng
Citations: 58
h-index: 4
Bo Wang
Bo Wang
Citations: 78
h-index: 2
Shichun Liu
Shichun Liu
Citations: 821
h-index: 9
Honglin Guo
Honglin Guo
Citations: 419
h-index: 9
Jie Yang
Jie Yang
Citations: 4
h-index: 2
Lifeng Ji
Lifeng Ji
Citations: 14
h-index: 2
Jiazheng Zhou
Jiazheng Zhou
Citations: 10
h-index: 1
Shuo Zhang
Shuo Zhang
Citations: 344
h-index: 8
Yuxin Wang
Yuxin Wang
Citations: 62
h-index: 4
Y. Zheng
Y. Zheng
Citations: 375
h-index: 4
Tao Gui
Tao Gui
Citations: 392
h-index: 3
Xipeng Qiu
Xipeng Qiu
Citations: 48
h-index: 3

대규모 언어 모델(LLM)이 자율 에이전트로 발전하면서, 인공지능 코딩의 범위는 단순한 코드 생성에서 복잡한 레포지토리 수준의 문제 해결 및 실행 기반 작업으로 확장되었습니다. 그러나 현재의 벤치마크는 주로 정적인 환경에서의 코드 로직을 평가하며, 실제 엔지니어링, 특히 엄격한 환경 구성 및 서비스 배포를 요구하는 백엔드 개발의 동적이고 전체적인 요구 사항을 간과합니다. 이러한 격차를 해소하기 위해, 우리는 실제 실행 가능한 워크플로우 내에서 에이전트 기반 백엔드 코딩을 평가하도록 설계된 벤치마크인 ABC-Bench를 소개합니다. 확장 가능한 자동화 파이프라인을 사용하여, 오픈 소스 레포지토리에서 8개 언어 및 19개 프레임워크에 걸쳐 224개의 실용적인 작업을 수집했습니다. 이전 평가와 달리, ABC-Bench는 에이전트가 레포지토리 탐색부터 컨테이너화된 서비스 인스턴스 생성 및 외부 엔드투엔드 API 테스트 통과까지 전체 개발 라이프사이클을 관리하도록 요구합니다. 광범위한 평가 결과, 최첨단 모델조차도 이러한 전체적인 작업에서 안정적인 성능을 제공하는 데 어려움을 겪으며, 이는 현재 모델의 능력과 실제 백엔드 엔지니어링의 요구 사항 간의 상당한 격차를 보여줍니다. 당사의 코드는 https://github.com/OpenMOSS/ABC-Bench에서 확인할 수 있습니다.

Original Abstract

The evolution of Large Language Models (LLMs) into autonomous agents has expanded the scope of AI coding from localized code generation to complex, repository-level, and execution-driven problem solving. However, current benchmarks predominantly evaluate code logic in static contexts, neglecting the dynamic, full-process requirements of real-world engineering, particularly in backend development which demands rigorous environment configuration and service deployment. To address this gap, we introduce ABC-Bench, a benchmark explicitly designed to evaluate agentic backend coding within a realistic, executable workflow. Using a scalable automated pipeline, we curated 224 practical tasks spanning 8 languages and 19 frameworks from open-source repositories. Distinct from previous evaluations, ABC-Bench require the agents to manage the entire development lifecycle from repository exploration to instantiating containerized services and pass the external end-to-end API tests. Our extensive evaluation reveals that even state-of-the-art models struggle to deliver reliable performance on these holistic tasks, highlighting a substantial disparity between current model capabilities and the demands of practical backend engineering. Our code is available at https://github.com/OpenMOSS/ABC-Bench.

0 Citations
0 Influential
45.005986908311 Altmetric
225.0 Score
Original PDF
29

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!