Region4Web: 웹 에이전트를 위한 관측 공간의 세분성 재고
Region4Web: Rethinking Observation Space Granularity for Web Agents
웹 에이전트는 관측 공간을 통해 웹 페이지를 인식하지만, 이 관측 공간의 세분성은 그 중요성이 간과되어 온 설계 요소입니다. 기존 연구에서는 관측의 세분성을 액션 공간과 동일한 요소 수준으로 처리하여, 웹 페이지의 기능적 구조를 암묵적으로 처리하고, 에이전트가 매 단계마다 요소 수준의 신호로부터 이를 추론하도록 만듭니다. 우리는 관측이 기능 영역, 즉 각기 다른 목적을 수행하는 웹 페이지의 부분이라는 세분성으로 이루어져야 한다고 주장합니다. 우리는 Region4Web이라는 프레임워크를 제안하는데, 이 프레임워크는 계층적 분해와 의미 추상을 통해 AXTree를 기능 영역으로 재구성하여, 웹 페이지의 기능적 구조를 페이지 상태 이해의 기반으로 제공합니다. 또한, 웹 환경에 특화된 추론 파이프라인인 PageDigest를 제안하여, 이 영역 수준의 관측 정보를 액터 에이전트에 각 페이지별 요약 정보로 제공하며, 이를 단계 간에 유지합니다. WebArena 벤치마크에서 PageDigest는 관측 길이를 크게 줄이면서, 다양한 백본 대규모 언어 모델(LLM) 및 기존 에이전트 방법에서 전반적인 작업 성공률을 향상시켰습니다. 이러한 결과는 기능 영역 수준으로 작동하는 것이 요소 수준 처리만으로는 제공할 수 없는, 액터 에이전트를 위한 보다 간결하고 유용한 기반을 제공한다는 것을 보여줍니다.
Web agents perceive web pages through an observation space, yet its granularity has remained an underexamined design choice. Existing work treats observation at the same element-level granularity as the action space, leaving the page's functional organization implicit and forcing the agent to infer it from element-level signals at every step. We argue observation should instead operate at the granularity of functional regions, parts of the page that each serve a distinct purpose. We propose Region4Web, a framework that reorganizes the AXTree into functional regions through hierarchical decomposition and semantic abstraction, exposing the page's functional organization as the basis for page state understanding. Moreover, we propose PageDigest, a web-specific inference pipeline that delivers this region-level observation to the actor agent as a compact per-page digest that persists across steps. On the WebArena benchmark, PageDigest substantially reduces observation length while improving overall task success rate across diverse backbone large language models (LLMs) and established agent methods, regardless of backbone capacity. These results show that operating at the granularity of functional regions delivers a more compact and informative basis for the actor agent than element-level processing alone.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.