WebWorld: 웹 에이전트 훈련을 위한 대규모 세계 모델
WebWorld: A Large-Scale World Model for Web Agent Training
웹 에이전트가 일반화 능력을 갖추기 위해서는 방대한 궤적 데이터가 필요하지만, 실제 환경에서의 훈련은 네트워크 지연, 속도 제한, 안전 위험 등으로 인해 제약을 받는다. 이에 우리는 대규모로 훈련된 최초의 개방형 웹 시뮬레이터인 WebWorld 시리즈를 소개한다. 수천 개의 궤적으로 구성된 폐쇄적 환경에 국한된 기존 시뮬레이터들과 달리, WebWorld는 확장 가능한 데이터 파이프라인을 활용하여 100만 건 이상의 개방형 웹 상호작용을 학습하며, 추론, 다중 형식 데이터, 30단계 이상의 장기 시뮬레이션을 지원한다. 내재적 평가를 위해 9가지 차원에 걸친 이중 지표를 포함하는 WebWorld-Bench를 도입하였으며, 여기서 WebWorld는 Gemini-3-Pro에 필적하는 시뮬레이션 성능을 달성하였다. 외재적 평가에서는 WebWorld가 합성한 궤적으로 훈련된 Qwen3-14B가 WebArena에서 9.2%의 성능 향상을 기록하며 GPT-4o와 대등한 수준에 도달했다. 또한 WebWorld는 효과적인 추론 시점 탐색을 가능하게 하여, 세계 모델로서 GPT-5를 능가하는 성능을 보인다. 웹 시뮬레이션을 넘어, WebWorld는 코드, GUI, 게임 환경에 대한 교차 도메인 일반화 능력을 입증하며, 세계 모델 구축을 위한 재현 가능한 방법론을 제시한다.
Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce \textbf{WebWorld} series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.