2604.16529v1 Apr 16, 2026 cs.SE

에이전트 기반 코딩을 위한 테스트 시간 컴퓨팅 확장

Scaling Test-Time Compute for Agentic Coding

Ruan Silva
Ruan Silva
Citations: 31,318
h-index: 8
Zhengxing Chen
Zhengxing Chen
Citations: 14,752
h-index: 8
Gabriel Synnaeve
Gabriel Synnaeve
Citations: 59,369
h-index: 57
Hanna Hajishirzi
Hanna Hajishirzi
Citations: 6,512
h-index: 30
Kelvin Niu
Kelvin Niu
Citations: 33
h-index: 2
Sanjeev Arora
Sanjeev Arora
Citations: 386
h-index: 10
Anirudh Goyal
Anirudh Goyal
Citations: 70
h-index: 5
Yun Zhu
Yun Zhu
Citations: 510
h-index: 7
Ruslan Salakhutdinov
Ruslan Salakhutdinov
Citations: 1,134
h-index: 9
Wannan Yang
Wannan Yang
Citations: 236
h-index: 6
Hongming Zhang
Hongming Zhang
Citations: 1,628
h-index: 19
Eryk Helenowski
Eryk Helenowski
Citations: 169
h-index: 6
Srinivasan Iyer
Srinivasan Iyer
Citations: 256
h-index: 3
M. Zaheer
M. Zaheer
Citations: 22,367
h-index: 44
Daniel Fried
Daniel Fried
Citations: 52
h-index: 3
Joongwon Kim
Joongwon Kim
University of Pennsylvania
Citations: 95
h-index: 6

테스트 시간 확장은 대규모 언어 모델의 성능을 향상시키는 강력한 방법으로 자리 잡았습니다. 그러나 기존 방법은 주로 직접 비교, 순위 결정 또는 개선이 가능한 짧고 제한적인 출력에 적합합니다. 장기적인 코딩 에이전트는 이러한 전제를 위반합니다. 각 시도는 에이전트가 수행하는 일련의 행동, 관찰, 오류 및 부분적인 진행 과정을 포함하는 확장된 경로를 생성합니다. 이러한 설정에서 주요 과제는 더 많은 시도를 생성하는 것이 아니라, 효과적으로 선택하고 재사용할 수 있는 형태로 이전 경험을 표현하는 것입니다. 우리는 롤아웃 경로의 압축된 표현을 기반으로 에이전트 기반 코딩을 위한 테스트 시간 확장 프레임워크를 제안합니다. 우리의 프레임워크는 각 롤아웃을 구조화된 요약으로 변환하여 중요한 가설, 진행 상황 및 실패 모드를 보존하는 동시에 낮은 신호의 세부 정보를 제거합니다. 이러한 표현은 두 가지 상호 보완적인 추론 시간 확장 방법을 가능하게 합니다. 병렬 확장을 위해, 우리는 소규모 그룹 비교를 통해 롤아웃 요약의 집합을 반복적으로 좁히는 Recursive Tournament Voting (RTV)을 도입합니다. 순차적 확장을 위해, 우리는 Parallel-Distill-Refine (PDR)을 에이전트 기반 설정에 맞게 조정하여 이전 시도에서 추출한 요약 정보를 기반으로 새로운 롤아웃을 생성합니다. 우리의 방법은 SWE-Bench Verified 및 Terminal-Bench v2.0에서 선도적인 코딩 에이전트의 성능을 지속적으로 향상시킵니다. 예를 들어, 우리의 방법을 사용함으로써 Claude-4.5-Opus는 SWE-Bench Verified (mini-SWE-agent)에서 70.9%에서 77.6%로, Terminal-Bench v2.0 (Terminus 1)에서 46.9%에서 59.1%로 성능이 향상되었습니다. 우리의 결과는 장기적인 에이전트를 위한 테스트 시간 확장이 근본적으로 표현, 선택 및 재사용의 문제입니다.

Original Abstract

Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.

0 Citations
0 Influential
28.5 Altmetric
142.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!