2602.10975v1 Feb 11, 2026 cs.SE

FeatureBench: 복잡한 기능 개발을 위한 에이전트 기반 코딩 벤치마킹

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Jiacheng Zhang
Jiacheng Zhang
Citations: 27
h-index: 2
Feiyang Pan
Feiyang Pan
Citations: 14
h-index: 2
Dandan Tu
Dandan Tu
Citations: 29
h-index: 1
Haiyang Wang
Haiyang Wang
Citations: 2
h-index: 1
Shuzhe Wu
Shuzhe Wu
Citations: 0
h-index: 0
Qixing Zhou
Qixing Zhou
Citations: 22
h-index: 2
Rui Hao
Rui Hao
Citations: 142
h-index: 5
Jiahe Wang
Jiahe Wang
Citations: 120
h-index: 5
Minghao Han
Minghao Han
Citations: 6
h-index: 1
Yuxue Yang
Yuxue Yang
Citations: 59
h-index: 4
Zhao Zhang
Zhao Zhang
Citations: 22
h-index: 3
Lue Fan
Lue Fan
Citations: 2,036
h-index: 20

대규모 언어 모델(LLM) 기반 에이전트는 소프트웨어 산업에서 점점 더 많이 활용되며, 협업 코드 작성자 또는 자율 개발자 역할을 수행합니다. 이러한 에이전트의 활용이 증가함에 따라, 현재 에이전트의 코딩 능력의 한계를 평가하는 것이 중요해졌습니다. 기존의 에이전트 기반 코딩 벤치마크는 일반적으로 제한적인 작업 범위를 다루며, 예를 들어 단일 풀 리퀘스트(PR) 내의 버그 수정과 같은 작업을 다룹니다. 또한, 실행 불가능한 평가 방식을 사용하거나, 평가 범위의 지속적인 업데이트를 위한 자동화된 접근 방식이 부족한 경우가 많습니다. 이러한 문제점을 해결하기 위해, 저희는 엔드투엔드(end-to-end) 방식으로 기능 중심의 소프트웨어 개발 성능을 평가하기 위한 벤치마크인 FeatureBench를 제안합니다. FeatureBench는 실행 기반의 평가 프로토콜과 확장 가능한 테스트 주도형 방법을 통합하여, 최소한의 인적 노력을 통해 코드 저장소에서 작업을 자동으로 생성합니다. 저희의 접근 방식은 단위 테스트를 따라 종속성 그래프를 탐색하여, 여러 커밋 및 PR에 흩어져 있는 기능 수준의 코딩 작업을 식별하며, 기능 분리 후에도 다른 기능이 제대로 작동하는지 확인합니다. 이 프레임워크를 사용하여, 저희는 24개의 오픈 소스 저장소에서 200개의 도전적인 평가 작업과 3825개의 실행 가능한 환경을 FeatureBench의 첫 번째 버전으로 구성했습니다. 실험적 결과는 최첨단 에이전트 모델인 Claude 4.5 Opus가 SWE-bench에서 74.4%의 해결률을 달성했지만, FeatureBench의 작업에서는 11.0%의 성공률에 그치는 것을 보여주며, 에이전트 기반 코딩 연구를 발전시킬 수 있는 새로운 기회를 제공합니다. 또한, 저희의 자동화된 작업 수집 도구킷을 통해, FeatureBench는 데이터 유출을 방지하기 위해 쉽게 확장 및 업데이트될 수 있습니다. 생성된 환경의 내재적인 검증 가능성은 에이전트 훈련에도 잠재적으로 가치 있는 자산이 될 수 있습니다.

Original Abstract

Agents powered by large language models (LLMs) are increasingly adopted in the software industry, contributing code as collaborators or even autonomous developers. As their presence grows, it becomes important to assess the current boundaries of their coding abilities. Existing agentic coding benchmarks, however, cover a limited task scope, e.g., bug fixing within a single pull request (PR), and often rely on non-executable evaluations or lack an automated approach for continually updating the evaluation coverage. To address such issues, we propose FeatureBench, a benchmark designed to evaluate agentic coding performance in end-to-end, feature-oriented software development. FeatureBench incorporates an execution-based evaluation protocol and a scalable test-driven method that automatically derives tasks from code repositories with minimal human effort. By tracing from unit tests along a dependency graph, our approach can identify feature-level coding tasks spanning multiple commits and PRs scattered across the development timeline, while ensuring the proper functioning of other features after the separation. Using this framework, we curated 200 challenging evaluation tasks and 3825 executable environments from 24 open-source repositories in the first version of our benchmark. Empirical evaluation reveals that the state-of-the-art agentic model, such as Claude 4.5 Opus, which achieves a 74.4% resolved rate on SWE-bench, succeeds on only 11.0% of tasks, opening new opportunities for advancing agentic coding. Moreover, benefiting from our automated task collection toolkit, FeatureBench can be easily scaled and updated over time to mitigate data leakage. The inherent verifiability of constructed environments also makes our method potentially valuable for agent training.

0 Citations
0 Influential
10 Altmetric
50.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!