ProjDevBench: 엔드투엔드 프로젝트 개발에서의 AI 코딩 에이전트 벤치마킹
ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development
최근 코딩 에이전트들은 간단한 프롬프트만으로 전체 코드베이스를 생성할 수 있지만, 기존의 평가 방법들은 이슈 수준의 버그 수정에만 초점을 맞추고 있어 엔드투엔드 개발 역량을 충분히 반영하지 못하고 있습니다. 본 연구에서는 코딩 에이전트에게 프로젝트 요구사항을 제공하고 그 결과로 생성된 저장소를 평가하는 엔드투엔드 벤치마크인 ProjDevBench를 소개합니다. 온라인 저지(OJ) 테스트와 LLM 보조 코드 리뷰를 결합한 이 벤치마크는 (1) 시스템 아키텍처 설계, (2) 기능적 정확성, (3) 반복적인 솔루션 개선 측면에서 에이전트를 평가합니다. 우리는 개념 중심의 작업과 실제 애플리케이션 시나리오를 아우르는 8개 카테고리의 20개 프로그래밍 문제를 엄선하여, 서로 다른 LLM 백엔드를 기반으로 구축된 6개의 코딩 에이전트를 평가했습니다. 평가 결과 전체 합격률은 27.38%로 나타났으며, 에이전트들은 기본적인 기능 구현과 데이터 구조 처리는 수행할 수 있으나 복잡한 시스템 설계, 시간 복잡도 최적화, 리소스 관리에는 어려움을 겪는 것으로 확인되었습니다. 본 벤치마크는 https://github.com/zsworld6/projdevbench 에서 확인할 수 있습니다.
Recent coding agents can generate complete codebases from simple prompts, yet existing evaluations focus on issue-level bug fixing and lag behind end-to-end development. We introduce ProjDevBench, an end-to-end benchmark that provides project requirements to coding agents and evaluates the resulting repositories. Combining Online Judge (OJ) testing with LLM-assisted code review, the benchmark evaluates agents on (1) system architecture design, (2) functional correctness, and (3) iterative solution refinement. We curate 20 programming problems across 8 categories, covering both concept-oriented tasks and real-world application scenarios, and evaluate six coding agents built on different LLM backends. Our evaluation reports an overall acceptance rate of 27.38%: agents handle basic functionality and data structures but struggle with complex system design, time complexity optimization, and resource management. Our benchmark is available at https://github.com/zsworld6/projdevbench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.