2602.13559v1 Feb 14, 2026 cs.AI

OpAgent: 웹 탐색을 위한 오퍼레이터 에이전트

OpAgent: Operator Agent for Web Navigation

Cheng Chen
Cheng Chen
Citations: 1,281
h-index: 7
Xin Chen
Xin Chen
Citations: 64
h-index: 5
Yangru Huang
Yangru Huang
Citations: 15
h-index: 2
Yuyu Guo
Yuyu Guo
Citations: 539
h-index: 10
Wenjie Yang
Wenjie Yang
Citations: 3
h-index: 1
Siyuan Yang
Siyuan Yang
Citations: 59
h-index: 3
Ziyang Liu
Ziyang Liu
Citations: 78
h-index: 2
Yuan Wei
Yuan Wei
Citations: 7
h-index: 2
Yun Hu
Yun Hu
Citations: 5
h-index: 2
Guo Hao
Guo Hao
Citations: 3
h-index: 1
Dongsheng Yuan
Dongsheng Yuan
Citations: 2
h-index: 1
Jianming Wang
Jianming Wang
Citations: 169
h-index: 4
Hang Yu
Hang Yu
Citations: 49
h-index: 2
Peng Di
Peng Di
Citations: 35
h-index: 4
Lei Lei
Lei Lei
Citations: 26
h-index: 2

사용자 지시를 이행하기 위해 자율 웹 에이전트는 실제 웹사이트의 내재된 복잡성과 가변적인 특성을 극복해야 합니다. 기존의 패러다임은 주로 정적 데이터셋을 사용하는 지도 미세 조정(SFT)이나 오프라인 강화 학습(RL)에 의존합니다. 그러나 이러한 방법들은 오프라인 궤적이 제약 없는 광범위한 웹 환경의 확률적 상태 전이와 실시간 피드백을 포착하지 못하기 때문에 심각한 분포 변화(distributional shift) 문제를 겪습니다. 본 논문에서는 제약 없는 광범위한 웹사이트와의 직접적이고 반복적인 상호작용을 통해 정책을 최적화하도록 설계된 강력한 온라인 강화 학습 WebAgent를 제안합니다. 우리의 접근 방식은 세 가지 핵심 혁신으로 구성됩니다. 1) 계층적 멀티태스크 미세 조정: 우리는 계획(Planning), 행동(Acting), 그라운딩(Grounding)과 같은 기능적 원형으로 분류된 포괄적인 혼합 데이터셋을 구축하여, 웹 GUI 작업을 위한 강력한 지시 이행 능력을 갖춘 시각-언어 모델(VLM)을 확립했습니다. 2) 야생(In the Wild) 환경에서의 온라인 에이전트 RL: 우리는 온라인 상호작용 환경을 개발하고 특화된 RL 파이프라인을 사용하여 VLM을 미세 조정했습니다. 또한 전체적인 결과 평가를 위한 정답(ground-truth)에 의존하지 않는 WebJudge와 진행 상황 보상을 위한 규칙 기반 의사결정 트리(RDT)를 결합한 하이브리드 보상 메커니즘을 도입했습니다. 이 시스템은 장기적인 탐색 과정에서의 신용 할당(credit assignment) 문제를 효과적으로 완화합니다. 특히, RL로 강화된 우리 모델은 WebArena에서 38.1%의 성공률(pass@5)을 달성하여 기존의 모든 단일(monolithic) 베이스라인을 능가했습니다. 3) 오퍼레이터 에이전트: 우리는 Planner, Grounder, Reflector, Summarizer를 조정하는 모듈형 에이전트 프레임워크인 OpAgent를 소개합니다. 이러한 시너지는 강력한 오류 복구 및 자가 수정을 가능하게 하여, 에이전트의 성능을 새로운 SOTA(State-of-the-Art) 성공률인 71.6%로 끌어올립니다.

Original Abstract

To fulfill user instructions, autonomous web agents must contend with the inherent complexity and volatile nature of real-world websites. Conventional paradigms predominantly rely on Supervised Fine-Tuning (SFT) or Offline Reinforcement Learning (RL) using static datasets. However, these methods suffer from severe distributional shifts, as offline trajectories fail to capture the stochastic state transitions and real-time feedback of unconstrained wide web environments. In this paper, we propose a robust Online Reinforcement Learning WebAgent, designed to optimize its policy through direct, iterative interactions with unconstrained wide websites. Our approach comprises three core innovations: 1) Hierarchical Multi-Task Fine-tuning: We curate a comprehensive mixture of datasets categorized by functional primitives -- Planning, Acting, and Grounding -- establishing a Vision-Language Model (VLM) with strong instruction-following capabilities for Web GUI tasks. 2) Online Agentic RL in the Wild: We develop an online interaction environment and fine-tune the VLM using a specialized RL pipeline. We introduce a Hybrid Reward Mechanism that combines a ground-truth-agnostic WebJudge for holistic outcome assessment with a Rule-based Decision Tree (RDT) for progress reward. This system effectively mitigates the credit assignment challenge in long-horizon navigation. Notably, our RL-enhanced model achieves a 38.1\% success rate (pass@5) on WebArena, outperforming all existing monolithic baselines. 3) Operator Agent: We introduce a modular agentic framework, namely \textbf{OpAgent}, orchestrating a Planner, Grounder, Reflector, and Summarizer. This synergy enables robust error recovery and self-correction, elevating the agent's performance to a new State-of-the-Art (SOTA) success rate of \textbf{71.6\%}.

2 Citations
0 Influential
5 Altmetric
27.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!