2602.13559v1 Feb 14, 2026 cs.AI

OpAgent: 웹 탐색을 위한 오퍼레이터 에이전트

OpAgent: Operator Agent for Web Navigation

Cheng Chen
Cheng Chen
Citations: 1,062
h-index: 6
Xin Chen
Xin Chen
Citations: 44
h-index: 4
Yangru Huang
Yangru Huang
Citations: 12
h-index: 1
Yuyu Guo
Yuyu Guo
Citations: 527
h-index: 10
Wenjie Yang
Wenjie Yang
Citations: 1
h-index: 1
Siyuan Yang
Siyuan Yang
Citations: 45
h-index: 2
Ziyang Liu
Ziyang Liu
Citations: 59
h-index: 2
Yuan Wei
Yuan Wei
Citations: 4
h-index: 1
Yun Hu
Yun Hu
Citations: 2
h-index: 1
Guo Hao
Guo Hao
Citations: 1
h-index: 1
Dongsheng Yuan
Dongsheng Yuan
Citations: 0
h-index: 0
Jianming Wang
Jianming Wang
Citations: 161
h-index: 4
Hang Yu
Hang Yu
Citations: 38
h-index: 2
Peng Di
Peng Di
Citations: 26
h-index: 3
Lei Lei
Lei Lei
Citations: 20
h-index: 2

사용자 지시를 이행하기 위해 자율 웹 에이전트는 실제 웹사이트의 내재된 복잡성과 가변적인 특성을 극복해야 합니다. 기존의 패러다임은 주로 정적 데이터셋을 사용하는 지도 미세 조정(SFT)이나 오프라인 강화 학습(RL)에 의존합니다. 그러나 이러한 방법들은 오프라인 궤적이 제약 없는 광범위한 웹 환경의 확률적 상태 전이와 실시간 피드백을 포착하지 못하기 때문에 심각한 분포 변화(distributional shift) 문제를 겪습니다. 본 논문에서는 제약 없는 광범위한 웹사이트와의 직접적이고 반복적인 상호작용을 통해 정책을 최적화하도록 설계된 강력한 온라인 강화 학습 WebAgent를 제안합니다. 우리의 접근 방식은 세 가지 핵심 혁신으로 구성됩니다. 1) 계층적 멀티태스크 미세 조정: 우리는 계획(Planning), 행동(Acting), 그라운딩(Grounding)과 같은 기능적 원형으로 분류된 포괄적인 혼합 데이터셋을 구축하여, 웹 GUI 작업을 위한 강력한 지시 이행 능력을 갖춘 시각-언어 모델(VLM)을 확립했습니다. 2) 야생(In the Wild) 환경에서의 온라인 에이전트 RL: 우리는 온라인 상호작용 환경을 개발하고 특화된 RL 파이프라인을 사용하여 VLM을 미세 조정했습니다. 또한 전체적인 결과 평가를 위한 정답(ground-truth)에 의존하지 않는 WebJudge와 진행 상황 보상을 위한 규칙 기반 의사결정 트리(RDT)를 결합한 하이브리드 보상 메커니즘을 도입했습니다. 이 시스템은 장기적인 탐색 과정에서의 신용 할당(credit assignment) 문제를 효과적으로 완화합니다. 특히, RL로 강화된 우리 모델은 WebArena에서 38.1%의 성공률(pass@5)을 달성하여 기존의 모든 단일(monolithic) 베이스라인을 능가했습니다. 3) 오퍼레이터 에이전트: 우리는 Planner, Grounder, Reflector, Summarizer를 조정하는 모듈형 에이전트 프레임워크인 OpAgent를 소개합니다. 이러한 시너지는 강력한 오류 복구 및 자가 수정을 가능하게 하여, 에이전트의 성능을 새로운 SOTA(State-of-the-Art) 성공률인 71.6%로 끌어올립니다.

Original Abstract

To fulfill user instructions, autonomous web agents must contend with the inherent complexity and volatile nature of real-world websites. Conventional paradigms predominantly rely on Supervised Fine-Tuning (SFT) or Offline Reinforcement Learning (RL) using static datasets. However, these methods suffer from severe distributional shifts, as offline trajectories fail to capture the stochastic state transitions and real-time feedback of unconstrained wide web environments. In this paper, we propose a robust Online Reinforcement Learning WebAgent, designed to optimize its policy through direct, iterative interactions with unconstrained wide websites. Our approach comprises three core innovations: 1) Hierarchical Multi-Task Fine-tuning: We curate a comprehensive mixture of datasets categorized by functional primitives -- Planning, Acting, and Grounding -- establishing a Vision-Language Model (VLM) with strong instruction-following capabilities for Web GUI tasks. 2) Online Agentic RL in the Wild: We develop an online interaction environment and fine-tune the VLM using a specialized RL pipeline. We introduce a Hybrid Reward Mechanism that combines a ground-truth-agnostic WebJudge for holistic outcome assessment with a Rule-based Decision Tree (RDT) for progress reward. This system effectively mitigates the credit assignment challenge in long-horizon navigation. Notably, our RL-enhanced model achieves a 38.1\% success rate (pass@5) on WebArena, outperforming all existing monolithic baselines. 3) Operator Agent: We introduce a modular agentic framework, namely \textbf{OpAgent}, orchestrating a Planner, Grounder, Reflector, and Summarizer. This synergy enables robust error recovery and self-correction, elevating the agent's performance to a new State-of-the-Art (SOTA) success rate of \textbf{71.6\%}.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!