2603.05044v1 Mar 05, 2026 cs.AI

WebFactory: 기반 언어 지능을 활용한 웹 에이전트의 자동화된 압축 기술

WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents

Shengze Xu
Shengze Xu
Citations: 73
h-index: 3
Sicheng Fan
Sicheng Fan
Citations: 176
h-index: 7
Lijuan Ling
Lijuan Ling
Citations: 31
h-index: 2
Yanyi Shang
Yanyi Shang
Citations: 85
h-index: 1
Dehan Kong
Dehan Kong
Citations: 158
h-index: 2
Qingyun Shi
Qingyun Shi
Citations: 2
h-index: 1
Tieyong Zeng
Tieyong Zeng
Citations: 63
h-index: 2
Shengbo Cai
Shengbo Cai
Citations: 1
h-index: 1

현재 GUI 에이전트 훈련 패러다임은 안전하지 않거나 재현 불가능한 실시간 웹 상호 작용에 의존하거나, 비용이 많이 들고 희소한 인간이 제작한 데이터 및 환경에 의존하는 근본적인 한계를 가지고 있습니다. 우리는 이러한 데이터 양에 대한 집중이 더 중요한 요소, 즉 대규모 언어 모델(LLM)의 잠재 지식을 실행 가능한 에이전트 행동으로 압축하는 효율성을 간과한다고 주장합니다. 우리는 WebFactory를 소개합니다. 이는 GUI 에이전트를 위한 혁신적이고 완전 자동화된 폐쇄 루프 강화 학습 파이프라인으로, LLM에 내재된 인터넷 지식을 효율적이고 실질적인 행동으로 체계적으로 압축합니다. 우리의 파이프라인은 확장 가능한 환경 합성, 지식 기반 작업 생성, LLM 기반 경로 수집, 분해된 보상 기반 강화 학습, 체계적인 에이전트 평가의 과정을 특징으로 합니다. 놀랍게도, 우리의 에이전트는 뛰어난 데이터 효율성과 일반화 능력을 보여줍니다. WebFactory 내의 단 10개 웹사이트에서 생성된 합성 데이터로 훈련되었음에도 불구하고, 훨씬 더 큰 환경 세트에서 수집된 동일한 양의 인간 주석 데이터로 훈련된 GUI 에이전트와 비교 가능한 성능을 달성합니다. 이러한 우수한 성능은 내부 오프라인 및 온라인 전송 벤치마크에서도 일관되게 나타나며, 우리의 에이전트는 기본 모델보다 훨씬 뛰어난 성능을 보입니다. 또한, 우리는 다양한 LLM 모델의 "구현 가능성"에 대한 중요한 통찰력을 제공하여 모델 평가를 위한 새로운 기준을 제시합니다. 이 연구는 수동적인 인터넷 지식을 능동적이고 실질적인 지능으로 변환하는 확장 가능하고 비용 효율적인 패러다임을 제시하며, 이는 범용 인터랙티브 에이전트 개발을 위한 중요한 단계입니다.

Original Abstract

Current paradigms for training GUI agents are fundamentally limited by a reliance on either unsafe, non-reproducible live web interactions or costly, scarce human-crafted data and environments. We argue this focus on data volume overlooks a more critical factor: the efficiency of compressing a large language model's (LLM) latent knowledge into actionable agent behavior. We introduce WebFactory, a novel, fully automated closed-loop reinforcement learning pipeline for GUI agents, systematically compressing LLM-encoded internet intelligence into efficient, grounded actions. Our pipeline features a process of scalable environment synthesis, knowledge-aware task generation, LLM-powered trajectory collection, decomposed reward RL training, and systematic agent evaluation. Remarkably, our agent demonstrates exceptional data efficiency and generalization. Trained on synthetic data from only 10 websites within WebFactory, it achieves performance comparable to GUI agents trained on the same amount of human-annotated data from a much larger set of environments. This superior performance is consistent across our internal offline and online transfer benchmarks, where our agent also significantly outperforms the base foundation model. We further provide critical insights into the "embodiment potential" of different LLM foundations, offering a new axis for model evaluation. This work presents a scalable and cost-effective paradigm for transforming passive internet knowledge into active, grounded intelligence, marking a critical step towards general-purpose interactive agents.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!