2603.05295v1 Mar 05, 2026 cs.AI

WebChain: 실제 웹 환경에서의 사용자 상호 작용 트레이스에 대한 대규모 인간 주석 데이터셋

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Sicheng Fan
Sicheng Fan
Citations: 176
h-index: 7
Rui Wan
Rui Wan
Citations: 2
h-index: 1
Yifei Leng
Yifei Leng
Citations: 110
h-index: 2
Gaoning Liang
Gaoning Liang
Citations: 0
h-index: 0
Lijuan Ling
Lijuan Ling
Citations: 31
h-index: 2
Yanyi Shang
Yanyi Shang
Citations: 85
h-index: 1
Dehan Kong
Dehan Kong
Citations: 158
h-index: 2

본 연구에서는 웹 에이전트 분야의 재현 가능한 연구를 가속화하기 위해 설계된, 가장 큰 규모의 오픈 소스 데이터셋인 WebChain을 소개합니다. WebChain은 31,725개의 트레이스와 318,000개의 단계로 구성되어 있으며, 시각, 구조, 행동 데이터를 핵심적인 3중 정렬 방식으로 결합하여 풍부하고 다중 모달의 지도 학습을 제공합니다. 이 데이터는 복잡하고 가치 있는 작업들을 포괄적으로 수집할 수 있는 확장 가능한 파이프라인을 통해 수집되었으며, 이는 기존의 합성 데이터 방법으로는 놓칠 수 있는 부분을 보완합니다. 본 연구에서는 WebChain 데이터셋을 활용하여, 공간적 지각 능력과 계획 능력을 분리하는 Dual Mid-Training 방법을 제안하고, 이를 통해 제안하는 WebChainBench 및 기타 공개 GUI 벤치마크에서 최첨단 성능을 달성했습니다. 본 연구는 확장 가능한 차세대 웹 에이전트를 구축하고 엄격하게 평가하는 데 필요한 데이터와 통찰력을 제공합니다.

Original Abstract

We introduce WebChain, the largest open-source dataset of human-annotated trajectories on real-world websites, designed to accelerate reproducible research in web agents. It contains 31,725 trajectories and 318k steps, featuring a core Triple Alignment of visual, structural, and action data to provide rich, multi-modal supervision. The data is collected via a scalable pipeline that ensures coverage of complex, high-value tasks often missed by synthetic methods. Leveraging this dataset, we propose a Dual Mid-Training recipe that decouples spatial grounding from planning, achieving state-of-the-art performance on our proposed WebChainBench and other public GUI benchmarks. Our work provides the data and insights necessary to build and rigorously evaluate the next generation of scalable web agents.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!