WebArbiter: 웹 에이전트를 위한 원칙 유도형 추론 과정 보상 모델
WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
웹 에이전트는 복잡한 컴퓨터 작업을 자동화하는 데 있어 큰 잠재력을 가지고 있지만, 그 상호 작용은 비가역적인 행동을 포함하는 장기적이고 순차적인 의사 결정 과정을 수반합니다. 이러한 환경에서 결과 기반 지도는 희소하고 지연되며, 종종 잘못된 궤적에 보상을 제공하거나 추론 시점의 확장을 지원하지 못하는 경우가 많습니다. 이는 웹 탐색을 위한 과정 보상 모델(WebPRMs)의 사용을 촉진하지만, 기존 접근 방식은 여전히 한계가 있습니다. 스칼라 기반 WebPRM은 진행 상황을 근거가 빈약하고 거친 신호로 축소시키며, 체크리스트 기반 WebPRM은 레이아웃이나 의미론적 변화에 취약한 템플릿 매칭에 의존하여 겉보기에만 올바른 행동을 성공으로 잘못 분류하는 경우가 많고 통찰력이나 해석 가능성을 거의 제공하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 보상 모델링을 텍스트 생성으로 공식화하는 추론 중심적이고 원칙을 유도하는 WebPRM인 WebArbiter를 소개합니다. 이는 구조화된 정당성을 생성하여 선호도 판결로 결론을 내리고 현재 맥락에서 작업 완료에 가장 도움이 되는 행동을 식별합니다. 훈련은 2단계 파이프라인을 따릅니다. 추론 증류는 모델에 일관된 원칙 유도형 추론 능력을 부여하고, 강화 학습은 판결을 정답과 직접적으로 일치시켜 교사 모델의 편향을 수정함으로써 더 강력한 일반화를 가능하게 합니다. 체계적인 평가를 지원하기 위해, 우리는 풍부한 작업과 고품질의 선호도 주석을 포함하는 4가지 다양한 웹 환경에 걸친 포괄적인 벤치마크인 WebPRMBench를 공개합니다. WebPRMBench에서 WebArbiter-7B는 가장 강력한 베이스라인인 GPT-5를 9.1점 차이로 능가했습니다. WebArena-Lite에서의 보상 유도 궤적 탐색에서, 이는 기존 최고의 WebPRM을 최대 7.2점까지 능가하며 실제 복잡한 웹 작업에서의 견고성과 실용적 가치를 강조합니다.
Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.