시간 인식 기반 테스트: 테스트 시간 스케일링 에이전트의 성능 향상
Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic
대규모 언어 모델(LLM)이 복잡한 추론 작업을 수행하는 데 있어, 테스트 시간 스케일링은 성능 향상에 매우 중요해졌습니다. 그러나, 도구 사용 빈도가 높은 에이전트 환경에서는 기존의 생성 길이 기반 정의가 한계를 드러냅니다. 왜냐하면 도구의 응답 시간(latency)이 추론 시간과 생성 길이를 분리하기 때문입니다. 본 연구에서는 '타임리 머신(Timely Machine)'을 제안하며, 테스트 시간을 실제 경과 시간으로 재정의하고, 모델이 시간 제약 조건에 따라 전략을 동적으로 조정하도록 합니다. 우리는 고빈도 및 저빈도 도구 사용, 그리고 시간 제약 추론을 포함하는 벤치마크인 '타임리-이벌(Timely-Eval)'을 소개합니다. 도구 응답 시간을 다양하게 변화시켜 실험한 결과, 작은 모델은 빠른 피드백을 통해 더 많은 상호 작용을 통해 뛰어난 성능을 보이며, 큰 모델은 높은 응답 시간 환경에서 우수한 상호 작용 품질을 통해 우위를 점하는 것을 확인했습니다. 또한, 기존 모델들은 시간 제약 조건에 맞춰 추론을 조정하는 데 어려움을 겪는 것을 확인했습니다. 이러한 문제를 해결하기 위해 '타임리-RL(Timely-RL)'을 제안합니다. 초기 지도 학습(supervised fine-tuning) 후, 강화 학습을 사용하여 시간 계획 능력을 향상시켰습니다. 타임리-RL은 시간 제약 조건에 대한 인식을 향상시키고, 타임리-이벌 벤치마크에서 일관되게 성능을 향상시킵니다. 본 연구가 에이전트 시대의 테스트 시간 스케일링에 대한 새로운 관점을 제시할 수 있기를 바랍니다.
As large language models (LLMs) increasingly tackle complex reasoning tasks, test-time scaling has become critical for enhancing capabilities. However, in agentic scenarios with frequent tool calls, the traditional generation-length-based definition breaks down: tool latency decouples inference time from generation length. We propose Timely Machine, redefining test-time as wall-clock time, where models dynamically adjust strategies based on time budgets. We introduce Timely-Eval, a benchmark spanning high-frequency tool calls, low-frequency tool calls, and time-constrained reasoning. By varying tool latency, we find smaller models excel with fast feedback through more interactions, while larger models dominate high-latency settings via superior interaction quality. Moreover, existing models fail to adapt reasoning to time budgets. We propose Timely-RL to address this gap. After cold-start supervised fine-tuning, we use reinforcement learning to enhance temporal planning. Timely-RL improves time budget awareness and consistently boosts performance across Timely-Eval. We hope our work offers a new perspective on test-time scaling for the agentic era.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.