ABC-Bench: 실제 개발 환경에서의 에이전트 기반 백엔드 코딩 성능 측정
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development
대규모 언어 모델(LLM)이 자율 에이전트로 발전하면서, 인공지능 코딩의 범위는 단순한 코드 생성에서 복잡한 레포지토리 수준의 문제 해결 및 실행 기반 작업으로 확장되었습니다. 그러나 현재의 벤치마크는 주로 정적인 환경에서의 코드 로직을 평가하며, 실제 엔지니어링, 특히 엄격한 환경 구성 및 서비스 배포를 요구하는 백엔드 개발의 동적이고 전체적인 요구 사항을 간과합니다. 이러한 격차를 해소하기 위해, 우리는 실제 실행 가능한 워크플로우 내에서 에이전트 기반 백엔드 코딩을 평가하도록 설계된 벤치마크인 ABC-Bench를 소개합니다. 확장 가능한 자동화 파이프라인을 사용하여, 오픈 소스 레포지토리에서 8개 언어 및 19개 프레임워크에 걸쳐 224개의 실용적인 작업을 수집했습니다. 이전 평가와 달리, ABC-Bench는 에이전트가 레포지토리 탐색부터 컨테이너화된 서비스 인스턴스 생성 및 외부 엔드투엔드 API 테스트 통과까지 전체 개발 라이프사이클을 관리하도록 요구합니다. 광범위한 평가 결과, 최첨단 모델조차도 이러한 전체적인 작업에서 안정적인 성능을 제공하는 데 어려움을 겪으며, 이는 현재 모델의 능력과 실제 백엔드 엔지니어링의 요구 사항 간의 상당한 격차를 보여줍니다. 당사의 코드는 https://github.com/OpenMOSS/ABC-Bench에서 확인할 수 있습니다.
The evolution of Large Language Models (LLMs) into autonomous agents has expanded the scope of AI coding from localized code generation to complex, repository-level, and execution-driven problem solving. However, current benchmarks predominantly evaluate code logic in static contexts, neglecting the dynamic, full-process requirements of real-world engineering, particularly in backend development which demands rigorous environment configuration and service deployment. To address this gap, we introduce ABC-Bench, a benchmark explicitly designed to evaluate agentic backend coding within a realistic, executable workflow. Using a scalable automated pipeline, we curated 224 practical tasks spanning 8 languages and 19 frameworks from open-source repositories. Distinct from previous evaluations, ABC-Bench require the agents to manage the entire development lifecycle from repository exploration to instantiating containerized services and pass the external end-to-end API tests. Our extensive evaluation reveals that even state-of-the-art models struggle to deliver reliable performance on these holistic tasks, highlighting a substantial disparity between current model capabilities and the demands of practical backend engineering. Our code is available at https://github.com/OpenMOSS/ABC-Bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.