2604.27253v1 Apr 29, 2026 cs.AI

AutoSurfer: 웹 에이전트 교육을 위한 포괄적인 탐색, 학습 및 모델링

AutoSurfer -- Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling

Fazle Faisal
Fazle Faisal
Citations: 4
h-index: 1
Baolin Peng
Baolin Peng
Citations: 26
h-index: 2
Qianhui Wu
Qianhui Wu
Microsoft Research
Citations: 2,381
h-index: 19
Jianfeng Gao
Jianfeng Gao
Citations: 612
h-index: 10

최근 다중 모드 대규모 언어 모델(LLM)의 발전은 웹사이트에서 복잡한 작업을 자동화할 수 있는 웹 에이전트 분야에 혁명을 가져왔습니다. 그러나 이러한 모델의 정확성은 여전히 고품질 웹 트래jectory 학습 데이터의 부족으로 인해 제한됩니다. 기존의 자동 트래jectory 생성 방법은 홈페이지 기반의 작업 제안 또는 무작위 탐색으로 인해 웹사이트의 불완전한 커버리지를 초래합니다. 이러한 방법은 종종 환각적이거나 모호한 작업 생성을 야기하여 불완전하고 신뢰할 수 없는 트래jectory 생성을 초래합니다. 본 논문에서는 이러한 한계를 극복하기 위한 세 가지 핵심 혁신을 통해 포괄적인 웹 트래jectory 생성기인 AutoSurfer를 제안합니다. 첫째, AutoSurfer는 발견된 페이지와 액션 트레이스를 큐로 유지하고, 페이지 간 지식을 전달하여 중복 탐색을 방지하며, 다단계 그래픽 사용자 인터페이스 요소를 재귀적으로 확장하는 체계적인 너비 우선 탐색 전략을 사용합니다. 이는 사용자가 새로운 웹사이트를 학습하는 방식과 매우 유사합니다. 둘째, AutoSurfer는 탐색 트래jectory를 활용하여 작업 생성을 안내하고, 복잡한 작업을 실제 탐색 경로에 기반하여 수행함으로써 환각 현상을 줄입니다. 셋째, AutoSurfer는 동일한 탐색 트래jectory를 힌트로 사용하여 웹 에이전트를 보다 정확하고 신뢰할 수 있는 트래jectory 개선 방향으로 유도합니다. 이러한 혁신들을 통해 AutoSurfer는 웹사이트의 액션 공간을 포괄적으로 커버하고 웹사이트별 LLM 학습에 적합한 데이터를 생성할 수 있습니다. 우리는 Qwen2.5-VL-7B-Instruct를 파인튜닝하여 WebArena 벤치마크에서 AutoSurfer를 평가하고, Explorer, OS-Genesis 및 SynthAgent와 같은 최첨단 방법보다 우수한 성능을 달성했으며, 전체 작업 완료 정확도가 19.59%인 최적의 기존 방법보다 최대 24.23% 더 높다는 것을 확인했습니다. 또한, 작업 다양성 분석 결과, AutoSurfer는 더 다양한 작업 분포를 생성하는 것을 보여주었습니다.

Original Abstract

Recent advances in multimodal large language models (LLMs) have revolutionized web agents that can automate complex tasks on websites. However, their accuracy remains limited by the scarcity of high-quality web trajectory training data. Existing automatic trajectory generation methods suffer from incomplete website coverage due to homepage-based task proposals or random-walk exploration. Such methods often result in hallucinated or ambiguous task synthesis that lead to incomplete and unreliable trajectory generation. Here, we present AutoSurfer, a comprehensive web trajectory generator that addresses these limitations through three key innovations. First, AutoSurfer employs a systematic breadth-first exploration strategy that maintains a queue of discovered pages and action traces, propagates knowledge across pages to avoid redundant exploration, and recursively expands multi-level graphical user interface elements - closely resembling how a human would learn a new website. Second, AutoSurfer leverages the exploration trajectory to guide task synthesis, reducing hallucinations by grounding complex tasks in actual navigation paths rather than isolated actions or page content alone. Third, AutoSurfer uses the same exploration trajectory as hints to steer a web agent toward more accurate and reliable trajectory refinement. Together, these innovations enable AutoSurfer to comprehensively cover a website's action space and generate data suitable for training website-specific LLMs. We evaluate AutoSurfer on the WebArena benchmark by fine-tuning Qwen2.5-VL-7B-Instruct and demonstrate that it outperforms state-of-the-art methods - Explorer, OS-Genesis, and SynthAgent - achieving up to 24.23% overall task completion accuracy compared to 19.59% for the best prior method. Further, task diversity analysis demonstrates that AutoSurfer yields a more diverse distribution of synthesized tasks.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!