웹 에이전트를 위한 에이전트형 테스트 시점 스케일링
Agentic Test-Time Scaling for WebAgents
테스트 시점 스케일링은 신경망 모델의 성능과 신뢰성을 높이는 표준적인 방법이 되었습니다. 그러나 에이전트 기반의 다단계 작업에서 이러한 방식이 어떻게 작동하는지는 아직 충분히 규명되지 않았습니다. 단계별로 발생하는 작은 오류들이 긴 작업 과정에서 누적될 수 있으며, 샘플링을 균일하게 늘리는 단순한 정책은 수확 체감(diminishing returns) 현상을 보이는 것으로 나타났습니다. 본 연구에서는 다단계 에이전트를 위해 연산 자원(compute)을 동적으로 할당하는 간단한 기법인 CATTS를 제안합니다. 먼저 웹 에이전트의 추론 시점 스케일링에 대한 실증적 연구를 수행한 결과, 단계별 연산량을 균일하게 늘리는 방식은 긴 호라이즌 환경에서 성능이 빠르게 포화됨을 확인했습니다. 이어 단순 투표 방식을 능가할 수 있으나 합의도가 높은 결정까지 번복할 위험이 있는 LLM 기반 중재자(Arbiter) 등 더 강력한 집계 전략을 조사했습니다. 연구 결과, 에이전트의 투표 분포에서 도출된 불확실성 통계(엔트로피 및 상위 1/2순위 격차)가 후속 작업의 성공 여부와 상관관계가 있으며, 동적 연산 할당에 유용한 신호가 됨을 입증했습니다. 이를 바탕으로 우리는 투표 기반 불확실성을 활용하여 결정이 실제로 불분명한 경우에만 연산을 할당하는 '신뢰도 인식 테스트 시점 스케일링(CATTS)'을 도입했습니다. CATTS는 WebArena-Lite와 GoBrowse에서 균일 스케일링보다 최대 2.3배 적은 토큰을 사용하면서도 React 대비 성능을 최대 9.1% 향상시켜, 효율성 증대와 해석 가능한 의사결정 규칙을 동시에 제공합니다.
Test-time scaling has become a standard way to improve performance and boost reliability of neural network models. However, its behavior on agentic, multi-step tasks remains less well-understood: small per-step errors can compound over long horizons; and we find that naive policies that uniformly increase sampling show diminishing returns. In this work, we present CATTS, a simple technique for dynamically allocating compute for multi-step agents. We first conduct an empirical study of inference-time scaling for web agents. We find that uniformly increasing per-step compute quickly saturates in long-horizon environments. We then investigate stronger aggregation strategies, including an LLM-based Arbiter that can outperform naive voting, but that can overrule high-consensus decisions. We show that uncertainty statistics derived from the agent's own vote distribution (entropy and top-1/top-2 margin) correlate with downstream success and provide a practical signal for dynamic compute allocation. Based on these findings, we introduce Confidence-Aware Test-Time Scaling (CATTS), which uses vote-derived uncertainty to allocate compute only when decisions are genuinely contentious. CATTS improves performance on WebArena-Lite and GoBrowse by up to 9.1% over React while using up to 2.3x fewer tokens than uniform scaling, providing both efficiency gains and an interpretable decision rule.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.