OpAgent: 웹 탐색을 위한 오퍼레이터 에이전트
OpAgent: Operator Agent for Web Navigation
사용자 지시를 이행하기 위해 자율 웹 에이전트는 실제 웹사이트의 내재된 복잡성과 가변적인 특성을 극복해야 합니다. 기존의 패러다임은 주로 정적 데이터셋을 사용하는 지도 미세 조정(SFT)이나 오프라인 강화 학습(RL)에 의존합니다. 그러나 이러한 방법들은 오프라인 궤적이 제약 없는 광범위한 웹 환경의 확률적 상태 전이와 실시간 피드백을 포착하지 못하기 때문에 심각한 분포 변화(distributional shift) 문제를 겪습니다. 본 논문에서는 제약 없는 광범위한 웹사이트와의 직접적이고 반복적인 상호작용을 통해 정책을 최적화하도록 설계된 강력한 온라인 강화 학습 WebAgent를 제안합니다. 우리의 접근 방식은 세 가지 핵심 혁신으로 구성됩니다. 1) 계층적 멀티태스크 미세 조정: 우리는 계획(Planning), 행동(Acting), 그라운딩(Grounding)과 같은 기능적 원형으로 분류된 포괄적인 혼합 데이터셋을 구축하여, 웹 GUI 작업을 위한 강력한 지시 이행 능력을 갖춘 시각-언어 모델(VLM)을 확립했습니다. 2) 야생(In the Wild) 환경에서의 온라인 에이전트 RL: 우리는 온라인 상호작용 환경을 개발하고 특화된 RL 파이프라인을 사용하여 VLM을 미세 조정했습니다. 또한 전체적인 결과 평가를 위한 정답(ground-truth)에 의존하지 않는 WebJudge와 진행 상황 보상을 위한 규칙 기반 의사결정 트리(RDT)를 결합한 하이브리드 보상 메커니즘을 도입했습니다. 이 시스템은 장기적인 탐색 과정에서의 신용 할당(credit assignment) 문제를 효과적으로 완화합니다. 특히, RL로 강화된 우리 모델은 WebArena에서 38.1%의 성공률(pass@5)을 달성하여 기존의 모든 단일(monolithic) 베이스라인을 능가했습니다. 3) 오퍼레이터 에이전트: 우리는 Planner, Grounder, Reflector, Summarizer를 조정하는 모듈형 에이전트 프레임워크인 OpAgent를 소개합니다. 이러한 시너지는 강력한 오류 복구 및 자가 수정을 가능하게 하여, 에이전트의 성능을 새로운 SOTA(State-of-the-Art) 성공률인 71.6%로 끌어올립니다.
To fulfill user instructions, autonomous web agents must contend with the inherent complexity and volatile nature of real-world websites. Conventional paradigms predominantly rely on Supervised Fine-Tuning (SFT) or Offline Reinforcement Learning (RL) using static datasets. However, these methods suffer from severe distributional shifts, as offline trajectories fail to capture the stochastic state transitions and real-time feedback of unconstrained wide web environments. In this paper, we propose a robust Online Reinforcement Learning WebAgent, designed to optimize its policy through direct, iterative interactions with unconstrained wide websites. Our approach comprises three core innovations: 1) Hierarchical Multi-Task Fine-tuning: We curate a comprehensive mixture of datasets categorized by functional primitives -- Planning, Acting, and Grounding -- establishing a Vision-Language Model (VLM) with strong instruction-following capabilities for Web GUI tasks. 2) Online Agentic RL in the Wild: We develop an online interaction environment and fine-tune the VLM using a specialized RL pipeline. We introduce a Hybrid Reward Mechanism that combines a ground-truth-agnostic WebJudge for holistic outcome assessment with a Rule-based Decision Tree (RDT) for progress reward. This system effectively mitigates the credit assignment challenge in long-horizon navigation. Notably, our RL-enhanced model achieves a 38.1\% success rate (pass@5) on WebArena, outperforming all existing monolithic baselines. 3) Operator Agent: We introduce a modular agentic framework, namely \textbf{OpAgent}, orchestrating a Planner, Grounder, Reflector, and Summarizer. This synergy enables robust error recovery and self-correction, elevating the agent's performance to a new State-of-the-Art (SOTA) success rate of \textbf{71.6\%}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.