에이전트 월드 모델: 에이전트 강화 학습을 위한 무한 합성 환경
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
최근 대규모 언어 모델(LLM)의 발전으로 자율 에이전트가 도구 및 환경과의 다중 턴 상호 작용이 필요한 복잡한 작업을 수행할 수 있게 되었습니다. 그러나 다양하고 신뢰할 수 있는 환경의 부족으로 인해 이러한 에이전트 훈련을 확장하는 데 한계가 있습니다. 본 논문에서는 완전한 합성 환경 생성 파이프라인인 에이전트 월드 모델(AWM)을 제안합니다. 이 파이프라인을 사용하여 일상적인 시나리오를 다루는 1,000개의 환경으로 확장하였으며, 여기서 에이전트는 풍부한 도구 세트(환경당 평균 35개)와 상호 작용하고 고품질의 관측 데이터를 얻을 수 있습니다. 특히, 이러한 환경은 코드 기반이며 데이터베이스로 뒷받침되므로, LLM으로 시뮬레이션된 환경보다 더 신뢰할 수 있고 일관된 상태 전이를 제공합니다. 또한, 실제 환경에서 궤적을 수집하는 것에 비해 더 효율적인 에이전트 상호 작용이 가능합니다. 이 리소스의 유효성을 입증하기 위해, 우리는 다중 턴 도구 사용 에이전트에 대한 대규모 강화 학습을 수행했습니다. 완전히 실행 가능한 환경과 접근 가능한 데이터베이스 상태 덕분에 신뢰할 수 있는 보상 함수를 설계할 수도 있습니다. 세 가지 벤치마크에 대한 실험 결과, 벤치마크별 환경이 아닌 합성 환경에서만 훈련해도 강력한 분포 외(out-of-distribution) 일반화 성능을 얻을 수 있음을 보여줍니다. 코드는 https://github.com/Snowflake-Labs/agent-world-model 에서 확인할 수 있습니다.
Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.