2602.12544v1 Feb 13, 2026 cs.AI

자동 데이터 생성 및 세밀한 평가를 통한 웹 에이전트 학습 확장

Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation

Lajanugen Logeswaran
Lajanugen Logeswaran
Citations: 5,626
h-index: 19
Jaekyeom Kim
Jaekyeom Kim
Citations: 630
h-index: 11
Sungryull Sohn
Sungryull Sohn
Citations: 754
h-index: 10
Creighton Glasscock
Creighton Glasscock
Citations: 7
h-index: 1
Ho-Sun Lee
Ho-Sun Lee
Citations: 66
h-index: 4

본 논문에서는 웹 에이전트를 위한 고품질 학습 데이터를 자동으로 생성하는 확장 가능한 파이프라인을 제안한다. 특히, 고품질 학습 인스턴스를 식별하는 데 있어 주된 과제는 궤적(trajectory) 평가, 즉 작업 완료를 향한 진척도를 정량화하는 것이다. 우리는 작업 완료 진행 상황에 대해 세밀한 평가를 제공하는 새로운 제약 조건 기반 평가 프레임워크를 도입한다. 이를 통해 부분적으로 성공한 궤적까지 활용할 수 있게 되어, 사용 가능한 학습 데이터의 양을 획기적으로 늘릴 수 있다. 우리는 20개의 인기 웹사이트에 걸친 복잡한 예약 작업으로 구성된 새로운 벤치마크인 BookingArena를 제안하여 이를 토대로 우리의 방법을 평가하였으며, 우리가 개발한 증류된 학생 모델(distilled student model)이 훨씬 작은 크기임에도 불구하고 오픈 소스 모델들을 능가하고 상용 시스템과 대등하거나 그 이상의 성능을 발휘함을 입증한다. 본 연구는 다양하고 현실적인 웹 상호작용 데이터셋을 효율적으로 구축하는 난제를 해결하고, 복잡하고 구조화된 웹 작업에 대한 체계적인 평가 방법론을 제시한다.

Original Abstract

We present a scalable pipeline for automatically generating high-quality training data for web agents. In particular, a major challenge in identifying high-quality training instances is trajectory evaluation - quantifying how much progress was made towards task completion. We introduce a novel constraint-based evaluation framework that provides fine-grained assessment of progress towards task completion. This enables us to leverage partially successful trajectories, which significantly expands the amount of usable training data. We evaluate our method on a new benchmark we propose called BookingArena, which consists of complex booking tasks across 20 popular websites, and demonstrate that our distilled student model outperforms open-source approaches and matches or exceeds commercial systems, while being a significantly smaller model. Our work addresses the challenge of efficiently creating diverse, realistic web interaction datasets and provides a systematic evaluation methodology for complex structured web tasks.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!