SlopCodeBench: 장기 반복 작업에서 코딩 에이전트의 성능 저하를 측정하는 벤치마크
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
소프트웨어 개발은 반복적인 과정이지만, 기존의 코딩 에이전트 벤치마크는 대부분 완전한 명세에 대한 단일 실행 솔루션을 평가합니다. 코드가 테스트 스위트를 통과하더라도 점진적으로 확장하기 어려워질 수 있습니다. 최근의 반복적인 벤치마크는 이러한 격차를 줄이기 위해 시도하지만, 에이전트의 설계 결정을 너무 제한적으로 설정하여 코드 품질이 향후 확장에 미치는 영향을 정확하게 측정하지 못합니다. 본 연구에서는 20개의 문제와 93개의 체크포인트를 포함하는 언어에 구애받지 않는 벤치마크인 SlopCodeBench를 소개합니다. 이 벤치마크에서 에이전트는 자체 이전 솔루션을 반복적으로 확장하며, 내부 구조를 규정하지 않고 아키텍처 결정을 강제하는 변화하는 명세에 따라 작동합니다. 우리는 두 가지 수준의 품질 지표를 추적합니다. 첫째, 중복 또는 복제 코드의 비율인 'verbosity'(간결성); 둘째, 복잡성이 높은 함수에 집중된 복잡성 정도인 'structural erosion'(구조적 침식). 11개의 모델에서 어떤 에이전트도 하나의 문제를 처음부터 끝까지 해결하지 못했으며, 가장 높은 체크포인트 해결률은 17.2%입니다. 코드 품질은 꾸준히 저하됩니다. 80%의 경우 구조적 침식이 증가하고, 89.8%의 경우 간결성이 감소합니다. 48개의 공개 소스 Python 저장소와 비교했을 때, 에이전트 코드는 2.2배 더 길고 구조적 침식이 훨씬 심합니다. 20개의 저장소를 시간 경과에 따라 추적한 결과, 인간이 작성한 코드는 안정적인 반면, 에이전트 코드는 반복할수록 품질이 저하됩니다. 프롬프트 개입 연구 결과, 초기 품질을 개선할 수 있지만, 품질 저하를 막을 수는 없습니다. 이러한 결과는 패스율 벤치마크가 확장성 강건성을 체계적으로 과소평가한다는 점, 그리고 현재 에이전트는 반복적인 소프트웨어 개발에 필요한 설계 원칙을 갖추지 못했다는 점을 보여줍니다.
Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.