AutoWebWorld: 유한 상태 머신을 이용한 무한하고 검증 가능한 웹 환경 합성
AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines
자율 웹 GUI 에이전트의 성능은 훈련 데이터의 품질과 양에 크게 좌우됩니다. 그러나 실제 웹사이트에서 상호작용 궤적(interaction trajectory)을 수집하는 것은 비용이 많이 들고 검증이 어렵다는 근본적인 병목 현상이 존재합니다. 기저의 상태 전이가 숨겨져 있어, 단계별 정확성을 평가하기 위해 일관성이 부족하고 비용이 높은 외부 검증기에 의존해야 하기 때문입니다. 이를 해결하기 위해, 우리는 웹 환경을 유한 상태 머신(FSM)으로 모델링하여 제어 가능하고 검증 가능한 웹 환경을 합성하고, 코딩 에이전트를 이용해 FSM을 상호작용 가능한 웹사이트로 변환하는 새로운 프레임워크인 AutoWebWorld를 제안합니다. 상태 전이가 암시적인 실제 웹사이트와 달리, AutoWebWorld는 모든 상태, 행동, 전이 규칙을 명시적으로 정의합니다. 이를 통해 프로그래밍 방식의 검증이 가능해져, 사전 정의된 규칙에 따라 행동의 정확성을 확인하고 FSM 그래프의 목표 상태 도달 여부로 작업 성공을 확정할 수 있습니다. AutoWebWorld는 완전 자동화된 탐색 및 검증 파이프라인을 구현하여, 29개의 다양한 웹 환경에서 11,663개 이상의 검증된 궤적을 궤적당 단 0.04달러의 비용으로 생성했습니다. 이 합성 데이터로 학습시킨 결과 실제 환경에서의 성능이 크게 향상되었습니다. 우리의 7B Web GUI 에이전트는 WebVoyager 벤치마크에서 15단계 이내에 모든 베이스라인 모델을 능가했습니다. 또한, 합성 데이터의 양이 증가할수록 WebVoyager와 Online-Mind2Web에서의 성능이 일관되게 향상되는 명확한 스케일링 법칙(scaling law)을 확인했습니다.
The performance of autonomous Web GUI agents heavily relies on the quality and quantity of their training data. However, a fundamental bottleneck persists: collecting interaction trajectories from real-world websites is expensive and difficult to verify. The underlying state transitions are hidden, leading to reliance on inconsistent and costly external verifiers to evaluate step-level correctness. To address this, we propose AutoWebWorld, a novel framework for synthesizing controllable and verifiable web environments by modeling them as Finite State Machines (FSMs) and use coding agents to translate FSMs into interactive websites. Unlike real websites, where state transitions are implicit, AutoWebWorld explicitly defines all states, actions, and transition rules. This enables programmatic verification: action correctness is checked against predefined rules, and task success is confirmed by reaching a goal state in the FSM graph. AutoWebWorld enables a fully automated search-and-verify pipeline, generating over 11,663 verified trajectories from 29 diverse web environments at only $0.04 per trajectory. Training on this synthetic data significantly boosts real-world performance. Our 7B Web GUI agent outperforms all baselines within 15 steps on WebVoyager. Furthermore, we observe a clear scaling law: as the synthetic data volume increases, performance on WebVoyager and Online-Mind2Web consistently improves.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.