Gaia2: 동적 및 비동기 환경에서의 LLM 에이전트 벤치마킹
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
우리는 현실적이고 비동기적인 환경에서 거대 언어 모델(LLM) 에이전트를 평가하기 위한 벤치마크인 Gaia2를 소개합니다. 기존의 정적이거나 동기적인 평가와 달리, Gaia2는 에이전트의 행동과 무관하게 환경이 변화하는 시나리오를 도입하여, 에이전트가 시간적 제약 내에서 작동하고, 잡음이 많고 동적인 사건에 적응하며, 모호함을 해결하고, 다른 에이전트와 협력할 것을 요구합니다. 각 시나리오는 쓰기 작업 검증기(write-action verifier)와 쌍을 이루어 세밀한 행동 단위의 평가를 가능하게 하며, 이를 통해 Gaia2는 검증 가능한 보상을 이용한 강화 학습에 즉시 활용될 수 있습니다. 최첨단 독점 및 오픈 소스 모델에 대한 평가 결과, 모든 역량에서 압도적인 우위를 점하는 모델은 없는 것으로 나타났습니다. GPT-5 (high)는 42%의 pass@1으로 가장 높은 종합 점수를 기록했지만 시간에 민감한 작업에서는 실패했으며, Claude-4 Sonnet은 비용 효율을 위해 정확도와 속도를 타협하는 모습을 보였고, Kimi-K2는 21%의 pass@1으로 오픈 소스 모델 중 선두를 차지했습니다. 이러한 결과는 추론 능력, 효율성, 견고성 간의 근본적인 트레이드오프를 강조하며, "sim2real" 격차를 해소하는 데에 있는 과제들을 드러냅니다. Gaia2는 오픈 소스인 Agents Research Environments 플랫폼을 기반으로 소비자 환경 위에 구축되었으며 확장이 용이하도록 설계되었습니다. 우리는 Gaia2를 기반 프레임워크인 ARE와 함께 공개함으로써, 차세대 실용적 에이전트 시스템을 개발, 벤치마킹 및 훈련하기 위한 유연한 인프라를 커뮤니티에 제공하고자 합니다.
We introduce Gaia2, a benchmark for evaluating large language model agents in realistic, asynchronous environments. Unlike prior static or synchronous evaluations, Gaia2 introduces scenarios where environments evolve independently of agent actions, requiring agents to operate under temporal constraints, adapt to noisy and dynamic events, resolve ambiguity, and collaborate with other agents. Each scenario is paired with a write-action verifier, enabling fine-grained, action-level evaluation and making Gaia2 directly usable for reinforcement learning from verifiable rewards. Our evaluation of state-of-the-art proprietary and open-source models shows that no model dominates across capabilities: GPT-5 (high) reaches the strongest overall score of 42% pass@1 but fails on time-sensitive tasks, Claude-4 Sonnet trades accuracy and speed for cost, Kimi-K2 leads among open-source models with 21% pass@1. These results highlight fundamental trade-offs between reasoning, efficiency, robustness, and expose challenges in closing the "sim2real" gap. Gaia2 is built on a consumer environment with the open-source Agents Research Environments platform and designed to be easy to extend. By releasing Gaia2 alongside the foundational ARE framework, we aim to provide the community with a flexible infrastructure for developing, benchmarking, and training the next generation of practical agent systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.