2602.02468v1 Feb 02, 2026 cs.AI

Avenir-Web: 그라운딩 전문가 혼합을 활용한 인간 경험 모방형 멀티모달 웹 에이전트

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Aiden Yiliu Li
Aiden Yiliu Li
Citations: 1
h-index: 1
Shilong Liu
Shilong Liu
Citations: 274
h-index: 7
Mengdi Wang
Mengdi Wang
Citations: 389
h-index: 9
Xinyue Hao
Xinyue Hao
Citations: 21
h-index: 2

멀티모달 거대 언어 모델의 발전에도 불구하고, 자율 웹 에이전트는 여전히 복잡하고 동적인 웹 인터페이스에서 장기(long-horizon) 작업을 안정적으로 수행하는 데 어려움을 겪고 있습니다. 기존 에이전트들은 특히 복잡한 문서 객체 모델(DOM) 구조상에서 작동할 때 부정확한 요소 그라운딩(grounding), 사이트별 절차적 지식의 부재, 그리고 불안정한 장기 작업 추적 및 기억 능력으로 인한 문제를 자주 겪습니다. 이러한 한계를 해결하기 위해, 우리는 실제 배포 환경의 Online-Mind2Web 벤치마크에서 새로운 오픈 소스 최고 성능(SOTA)을 달성한 웹 에이전트인 Avenir-Web을 소개합니다. Avenir-Web은 다양한 사용자 인터페이스 패러다임 전반에서 견고하고 원활한 상호작용을 가능하게 하기 위해 그라운딩 전문가 혼합(Mixture of Grounding Experts), 절차적 사전 지식을 통합하기 위한 경험 모방 계획(Experience-Imitation Planning), 그리고 적응형 메모리가 결합된 작업 추적 체크리스트를 활용합니다. 우리는 라이브 웹사이트와 사용자 중심 작업으로 구성된 엄격한 벤치마크인 Online-Mind2Web에서 Avenir-Web을 평가했습니다. 연구 결과, Avenir-Web은 기존 오픈 소스 에이전트들을 크게 능가하고 최상위권 독점 모델(proprietary models)과 대등한 성능을 달성하였으며, 이를 통해 라이브 웹사이트상의 신뢰할 수 있는 웹 에이전트를 위한 새로운 오픈 소스 기술 표준을 수립했음을 입증했습니다.

Original Abstract

Despite advances in multimodal large language models, autonomous web agents still struggle to reliably execute long-horizon tasks on complex and dynamic web interfaces. Existing agents often suffer from inaccurate element grounding, the absence of site-specific procedural knowledge, and unstable long-term task tracking and memory, particularly when operating over complex Document Object Model structures. To address these limitations, we introduce Avenir-Web, a web agent that achieves a new open-source state of the art on the Online-Mind2Web benchmark in real-world deployment. Avenir-Web leverages a Mixture of Grounding Experts, Experience-Imitation Planning for incorporating procedural priors, and a task-tracking checklist combined with adaptive memory to enable robust and seamless interaction across diverse user interface paradigms. We evaluate Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web tasks. Our results demonstrate that Avenir-Web significantly surpasses prior open-source agents and attains performance parity with top-tier proprietary models, thereby establishing a new open-source state of the art for reliable web agents on live websites.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!