범용 LLM 에이전트의 테스트 타임 스케일링 벤치마크
Benchmark Test-Time Scaling of General LLM Agents
LLM 에이전트는 점점 더 개방형 사용자 요청을 해결할 수 있는 범용 시스템으로 기능할 것으로 기대되고 있습니다. 기존 벤치마크들이 특화된 에이전트 개발을 위한 도메인 인식 환경에 초점을 맞추는 반면, 범용 에이전트를 평가하려면 통합된 환경 내에서 다양한 기술과 도구를 넘나들며 작동해야 하는 보다 현실적인 설정이 필요합니다. 우리는 검색, 코딩, 추론 및 도구 사용 도메인 전반에 걸쳐 범용 LLM 에이전트를 평가하기 위해 이러한 통합 프레임워크를 제공하는 벤치마크인 General AgentBench를 소개합니다. General AgentBench를 사용하여, 우리는 순차적 스케일링(반복적 상호작용) 및 병렬 스케일링(다중 궤적 샘플링) 조건에서 테스트 타임 스케일링의 동작을 체계적으로 연구합니다. 10개의 주요 LLM 에이전트를 평가한 결과, 도메인 특화 평가에서 이러한 범용 에이전트 설정으로 전환할 때 상당한 성능 저하가 발생하는 것으로 나타났습니다. 더욱이, 우리는 순차적 스케일링에서의 컨텍스트 한계(context ceiling)와 병렬 스케일링에서의 검증 격차(verification gap)라는 두 가지 근본적인 한계로 인해 어떤 스케일링 방법론도 실제로는 효과적인 성능 향상을 가져오지 못한다는 사실을 발견했습니다. 관련 코드는 https://github.com/cxcscmu/General-AgentBench 에서 공개적으로 이용할 수 있습니다.
LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.