WebXSkill: 자율 웹 에이전트를 위한 기술 학습
WebXSkill: Skill Learning for Autonomous Web Agents
대규모 언어 모델(LLM)에 의해 구동되는 자율 웹 에이전트는 복잡한 브라우저 작업을 수행하는 데 유망한 결과를 보여주었지만, 여전히 장기적인 워크플로우를 처리하는 데 어려움을 겪고 있습니다. 주요 병목 현상은 기존 기술 정의 방식의 '그라운딩 갭(grounding gap)'입니다. 텍스트 기반 워크플로우 기술은 자연어 지침을 제공하지만 직접 실행할 수 없으며, 코드 기반 기술은 실행 가능하지만 에이전트에게는 불투명하여 오류 복구 또는 적응을 위한 단계별 이해를 제공하지 않습니다. 우리는 이 간극을 메우는 WebXSkill이라는 프레임워크를 소개합니다. WebXSkill은 각 기술이 매개변수화된 동작 프로그램과 단계별 자연어 지침을 결합하여 직접 실행과 에이전트 주도적인 적응을 모두 가능하게 합니다. WebXSkill은 세 단계로 작동합니다. 첫째, '기술 추출' 단계에서는 사용 가능한 합성 에이전트 경로에서 재사용 가능한 동작 서열을 추출하여 매개변수화된 기술로 추상화합니다. 둘째, '기술 구성' 단계에서는 기술을 URL 기반 그래프로 인덱싱하여 컨텍스트에 맞는 검색을 지원합니다. 셋째, '기술 배포' 단계에서는 완전히 자동화된 다단계 실행을 위한 '그라운딩 모드'와 에이전트가 자체 계획 기능을 사용하여 단계별 지침으로 기술을 따르는 '가이드 모드'라는 두 가지 상호 보완적인 모드를 제공합니다. WebArena 및 WebVoyager에서 WebXSkill은 각각 기준 모델보다 작업 성공률을 최대 9.8% 및 12.9% 향상시켜 웹 에이전트에 대한 실행 가능한 기술의 효과를 입증합니다. 코드는 다음 위치에서 공개적으로 사용할 수 있습니다: https://github.com/aiming-lab/WebXSkill.
Autonomous web agents powered by large language models (LLMs) have shown promise in completing complex browser tasks, yet they still struggle with long-horizon workflows. A key bottleneck is the grounding gap in existing skill formulations: textual workflow skills provide natural language guidance but cannot be directly executed, while code-based skills are executable but opaque to the agent, offering no step-level understanding for error recovery or adaptation. We introduce WebXSkill, a framework that bridges this gap with executable skills, each pairing a parameterized action program with step-level natural language guidance, enabling both direct execution and agent-driven adaptation. WebXSkill operates in three stages: skill extraction mines reusable action subsequences from readily available synthetic agent trajectories and abstracts them into parameterized skills, skill organization indexes skills into a URL-based graph for context-aware retrieval, and skill deployment exposes two complementary modes, grounded mode for fully automated multi-step execution and guided mode where skills serve as step-by-step instructions that the agent follows with its native planning. On WebArena and WebVoyager, WebXSkill improves task success rate by up to 9.8 and 12.9 points over the baseline, respectively, demonstrating the effectiveness of executable skills for web agents. The code is publicly available at https://github.com/aiming-lab/WebXSkill.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.