신용 기반 ICPC 스타일 코딩: 모든 결정에 대한 비용 지불이 필요한 에이전트
Credit-Budgeted ICPC-Style Coding: When Agents Must Pay for Every Decision
현재 자율 코딩 에이전트의 평가는 비현실적인 무한 자원 환경을 가정합니다. 그러나 실제 소프트웨어 엔지니어링은 자원 제약적인 경쟁입니다. 에이전트 규모가 커질수록 컴퓨팅 및 시간 비용을 무시하면 예산 고갈로 이어질 수 있습니다. 본 연구에서는 정확도 향상에만 집중하는 대신 비용을 고려한 문제 해결에 초점을 맞추기 위해, 엄격한 '신용' 경제 시스템을 기반으로 하는 인터랙티브 ACM-ICPC 스타일 아레나인 USACOArena를 소개합니다. 생성되는 모든 토큰, 로컬 테스트, 경과된 시간은 고정된 예산을 소모시키므로, 에이전트는 전략적인 절충을 해야 합니다. 포괄적인 분석 결과, 현재 최고 성능을 보이는 단일 에이전트와 에이전트 그룹은 이러한 제약 조건 하에서 정확도와 비용의 최적 균형을 이루지 못하며, 다양한 경로 의존적인 동작을 보입니다. 궁극적으로, USACOArena는 고도로 효율적이고 자원 의식을 갖춘 에이전트 아키텍처를 개발하기 위한 필수적인 동적 훈련 환경을 제공합니다.
Current evaluations of autonomous coding agents assume an unrealistic, infinite-resource environment. However, real-world software engineering is a resource-bound competition. As we scale toward large agent swarms, ignoring compute and time costs risks catastrophic budget exhaustion. To shift the focus from isolated accuracy to cost-aware problem-solving, we introduce USACOArena, an interactive ACM-ICPC-style arena driven by a strict "credit" economy. Every generated token, local test, and elapsed second depletes a fixed budget, forcing agents to make strategic trade-offs. Our comprehensive profiling reveals that frontier single agents and swarms currently fail to optimally balance accuracy with these constraints, exhibiting divergent, path-dependent behaviors. Ultimately, USACOArena provides an essential dynamic training ground for developing highly efficient, resource-aware agent architectures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.