2602.02468v1 Feb 02, 2026 cs.AI

Avenir-Web: 그라운딩 전문가 혼합을 활용한 인간 경험 모방형 멀티모달 웹 에이전트

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Aiden Yiliu Li
Aiden Yiliu Li
Citations: 4
h-index: 2
Shilong Liu
Shilong Liu
Citations: 339
h-index: 7
Mengdi Wang
Mengdi Wang
Citations: 474
h-index: 10
Xinyue Hao
Xinyue Hao
Citations: 29
h-index: 3

멀티모달 거대 언어 모델의 발전에도 불구하고, 자율 웹 에이전트는 여전히 복잡하고 동적인 웹 인터페이스에서 장기(long-horizon) 작업을 안정적으로 수행하는 데 어려움을 겪고 있습니다. 기존 에이전트들은 특히 복잡한 문서 객체 모델(DOM) 구조상에서 작동할 때 부정확한 요소 그라운딩(grounding), 사이트별 절차적 지식의 부재, 그리고 불안정한 장기 작업 추적 및 기억 능력으로 인한 문제를 자주 겪습니다. 이러한 한계를 해결하기 위해, 우리는 실제 배포 환경의 Online-Mind2Web 벤치마크에서 새로운 오픈 소스 최고 성능(SOTA)을 달성한 웹 에이전트인 Avenir-Web을 소개합니다. Avenir-Web은 다양한 사용자 인터페이스 패러다임 전반에서 견고하고 원활한 상호작용을 가능하게 하기 위해 그라운딩 전문가 혼합(Mixture of Grounding Experts), 절차적 사전 지식을 통합하기 위한 경험 모방 계획(Experience-Imitation Planning), 그리고 적응형 메모리가 결합된 작업 추적 체크리스트를 활용합니다. 우리는 라이브 웹사이트와 사용자 중심 작업으로 구성된 엄격한 벤치마크인 Online-Mind2Web에서 Avenir-Web을 평가했습니다. 연구 결과, Avenir-Web은 기존 오픈 소스 에이전트들을 크게 능가하고 최상위권 독점 모델(proprietary models)과 대등한 성능을 달성하였으며, 이를 통해 라이브 웹사이트상의 신뢰할 수 있는 웹 에이전트를 위한 새로운 오픈 소스 기술 표준을 수립했음을 입증했습니다.

Original Abstract

Despite advances in multimodal large language models, autonomous web agents still struggle to reliably execute long-horizon tasks on complex and dynamic web interfaces. Existing agents often suffer from inaccurate element grounding, the absence of site-specific procedural knowledge, and unstable long-term task tracking and memory, particularly when operating over complex Document Object Model structures. To address these limitations, we introduce Avenir-Web, a web agent that achieves a new open-source state of the art on the Online-Mind2Web benchmark in real-world deployment. Avenir-Web leverages a Mixture of Grounding Experts, Experience-Imitation Planning for incorporating procedural priors, and a task-tracking checklist combined with adaptive memory to enable robust and seamless interaction across diverse user interface paradigms. We evaluate Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web tasks. Our results demonstrate that Avenir-Web significantly surpasses prior open-source agents and attains performance parity with top-tier proprietary models, thereby establishing a new open-source state of the art for reliable web agents on live websites.

2 Citations
1 Influential
5 Altmetric
29.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!