2602.10171v1 Feb 10, 2026 cs.SE

EvoCodeBench: 자기 진화형 LLM 기반 코딩 시스템의 인간 수준 성능 벤치마크

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Yilei Zhao
Yilei Zhao
Citations: 250
h-index: 5
Wentao Zhang
Wentao Zhang
Citations: 184
h-index: 3
Jianfeng Wang
Jianfeng Wang
Citations: 22
h-index: 3
Liheng Liang
Liheng Liang
Citations: 112
h-index: 6
Haibin Wen
Haibin Wen
Citations: 58
h-index: 4
Zhe Zhao
Zhe Zhao
Citations: 119
h-index: 4

대규모 언어 모델(LLM)이 프로그래밍 작업에서 지속적으로 발전함에 따라, LLM 기반 코딩 시스템은 일회성 코드 생성에서 추론 과정에서 반복적인 개선이 가능한 복잡한 시스템으로 진화했습니다. 그러나 기존의 코드 벤치마크는 주로 정적 정확성에 중점을 두며, 추론 과정에서의 모델 성능이 고정되어 있다는 전제를 암묵적으로 가지고 있습니다. 따라서 이러한 벤치마크는 추론 시간 동안의 자기 진화 현상, 즉 에이전트가 반복적으로 솔루션을 개선함에 따라 정확성과 효율성이 어떻게 향상되는지를 제대로 반영하지 못합니다. 또한, 자원 소비량에 대한 제한적인 정보만을 제공하며, 모델 성능을 인간 프로그래머의 성능과 비교하는 경우는 드뭅니다. 더욱이, 많은 벤치마크가 고성능 언어에 편중되어 있어, 다양한 언어에 대한 안정성 및 덜 사용되는 언어에 대한 안정성이 충분히 탐구되지 않았습니다. 이에, 우리는 다양한 프로그래밍 언어에서 자기 진화형 LLM 기반 코딩 시스템을 평가하고, 인간 성능과 직접 비교하는 벤치마크인 EvoCodeBench를 제시합니다. EvoCodeBench는 성능 변화를 추적하며, 해결 시간, 메모리 사용량, 반복적인 문제 해결 시점에서의 알고리즘 개선 등 효율성 지표와 함께 솔루션의 정확성을 측정합니다. 평가를 인간 중심적인 관점에서 수행하기 위해, 모델 성능을 동일한 작업에 대한 인간 프로그래머의 성능과 직접 비교하여, 인간 능력 분포 내에서의 상대적인 성능을 평가합니다. 또한, EvoCodeBench는 여러 프로그래밍 언어를 지원하여, 체계적인 언어 간 비교 및 덜 사용되는 언어에 대한 안정성 분석을 가능하게 합니다. 우리의 결과는 자기 진화형 시스템이 시간이 지남에 따라 효율성 측면에서 측정 가능한 향상을 보이며, 인간 상대적인 분석 및 다국어 분석이 정확도만으로는 얻을 수 없는 통찰력을 제공한다는 것을 보여줍니다. EvoCodeBench는 진화하는 LLM 기반 시스템에서 코딩 지능을 평가하는 데 필요한 기반을 제공합니다.

Original Abstract

As large language models (LLMs) continue to advance in programming tasks, LLM-driven coding systems have evolved from one-shot code generation into complex systems capable of iterative improvement during inference. However, existing code benchmarks primarily emphasize static correctness and implicitly assume fixed model capability during inference. As a result, they do not capture inference-time self-evolution, such as whether accuracy and efficiency improve as an agent iteratively refines its solutions. They also provide limited accounting of resource costs and rarely calibrate model performance against that of human programmers. Moreover, many benchmarks are dominated by high-resource languages, leaving cross-language robustness and long-tail language stability underexplored. Therefore, we present EvoCodeBench, a benchmark for evaluating self-evolving LLM-driven coding systems across programming languages with direct comparison to human performance. EvoCodeBench tracks performance dynamics, measuring solution correctness alongside efficiency metrics such as solving time, memory consumption, and improvement algorithmic design over repeated problem-solving attempts. To ground evaluation in a human-centered reference frame, we directly compare model performance with that of human programmers on the same tasks, enabling relative performance assessment within the human ability distribution. Furthermore, EvoCodeBench supports multiple programming languages, enabling systematic cross-language and long-tail stability analyses under a unified protocol. Our results demonstrate that self-evolving systems exhibit measurable gains in efficiency over time, and that human-relative and multi-language analyses provide insights unavailable through accuracy alone. EvoCodeBench establishes a foundation for evaluating coding intelligence in evolving LLM-driven systems.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!