ProdCodeBench: 실제 생산 환경에서 파생된 AI 코딩 에이전트 평가를 위한 벤치마크
ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents
실제 산업 환경에서 AI 코딩 에이전트를 평가하기 위해서는 생산 워크로드를 반영하는 벤치마크가 중요하지만, 기존 벤치마크는 프로그래밍 언어 분포, 프롬프트 스타일, 코드베이스 구조 등에서 실제 사용 환경과 차이가 있습니다. 본 논문에서는 실제 생산 환경에서 파생된 벤치마크를 구축하는 방법론을 제시하고, 실제 AI 코딩 어시스턴트와의 세션에서 수집된 데이터를 기반으로 구축된 벤치마크인 ProdCodeBench를 통해 이를 설명합니다. 우리는 LLM 기반 작업 분류, 테스트 관련성 검증, 다중 실행 안정성 검사 등 데이터 수집 및 큐레이션 과정을 상세히 설명하며, 이를 통해 모노레포 환경에서 신뢰성 있는 평가 지표를 구축하는 데 따르는 어려움을 해결합니다. 큐레이션된 각 샘플은 정확한 프롬프트, 커밋된 코드 변경 사항, 그리고 7개의 프로그래밍 언어에 걸친 테스트 실패 결과를 포함합니다. 우리는 4개의 기초 모델에 대한 체계적인 분석을 통해 53.2%에서 72.2%의 해결률을 확인했으며, 테스트 실행 및 정적 분석과 같은 검증 도구를 더 많이 사용하는 모델이 더 높은 해결률을 달성하는 것으로 나타났습니다. 이는 반복적인 검증이 효과적인 에이전트 동작을 달성하는 데 도움이 되며, 코드베이스별 검증 메커니즘을 노출하면 낯선 환경에서 운영되는 외부 학습 에이전트의 성능을 크게 향상시킬 수 있음을 시사합니다. 우리는 구축 방법론과 얻은 교훈을 공유하여 다른 조직에서도 유사한 생산 환경 기반 벤치마크를 구축할 수 있도록 지원합니다.
Benchmarks that reflect production workloads are better for evaluating AI coding agents in industrial settings, yet existing benchmarks differ from real usage in programming language distribution, prompt style and codebase structure. This paper presents a methodology for curating production-derived benchmarks, illustrated through ProdCodeBench - a benchmark built from real sessions with a production AI coding assistant. We detail our data collection and curation practices including LLM-based task classification, test relevance validation, and multi-run stability checks which address challenges in constructing reliable evaluation signals from monorepo environments. Each curated sample consists of a verbatim prompt, a committed code change and fail-to-pass tests spanning seven programming languages. Our systematic analysis of four foundation models yields solve rates from 53.2% to 72.2% revealing that models making greater use of work validation tools, such as executing tests and invoking static analysis, achieve higher solve rates. This suggests that iterative verification helps achieve effective agent behavior and that exposing codebase-specific verification mechanisms may significantly improve the performance of externally trained agents operating in unfamiliar environments. We share our methodology and lessons learned to enable other organizations to construct similar production-derived benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.