2603.26266v1 Mar 27, 2026 cs.AI

GUIDE: 실시간 웹 비디오 검색 및 플러그 앤 플레이 주석을 통한 GUI 에이전트의 도메인 편향 해소

GUIDE: Resolving Domain Bias in GUI Agents through Real-Time Web Video Retrieval and Plug-and-Play Annotation

Rui Xie
Rui Xie
Citations: 0
h-index: 0
Zhi Gao
Zhi Gao
Citations: 419
h-index: 8
Chenrui Shi
Chenrui Shi
Citations: 129
h-index: 7
Zirui Shang
Zirui Shang
Citations: 91
h-index: 5
Lu Chen
Lu Chen
Citations: 15
h-index: 2
Qing Li
Qing Li
Citations: 205
h-index: 8

대규모 시각-언어 모델은 GUI 에이전트에게 인터페이스 이해 및 상호 작용에 대한 강력한 일반적인 능력을 부여했습니다. 그러나 훈련 과정에서 특정 소프트웨어 운영 데이터에 대한 노출 부족으로 인해 이러한 에이전트는 상당한 도메인 편향을 보입니다. 즉, 특정 애플리케이션의 특정 운영 워크플로우(계획) 및 UI 요소 레이아웃(근거)에 대한 친숙성이 부족하여 실제 작업 성능이 제한됩니다. 본 논문에서는 훈련이 필요 없는 플러그 앤 플레이 프레임워크인 GUIDE(GUI Unbiasing via Instructional-Video Driven Expertise)를 제시합니다. GUIDE는 검색 증강 자동 주석 파이프라인을 통해 웹 튜토리얼 비디오에서 도메인별 전문 지식을 자율적으로 획득하여 GUI 에이전트의 도메인 편향을 해결합니다. GUIDE는 두 가지 핵심 혁신을 도입합니다. 첫째, 자막 기반 비디오-RAG 파이프라인은 자막 분석을 통해 비디오 의미를 파악하고, 도메인 분류, 주제 추출, 관련성 매칭의 세 단계에 걸쳐 점진적인 검색을 수행하여 작업과 관련된 튜토리얼 비디오를 식별합니다. 둘째, 역 운동학적 패러다임을 기반으로 구축된 완전 자동 주석 파이프라인은 UI 요소 감지가 강화된 연속적인 키프레임을 VL 모델에 입력하여, 에이전트의 해당 모듈에 주입되는 필요한 계획 및 근거 지식을 추론하여 도메인 편향의 두 가지 측면을 모두 해결합니다. OSWorld에서의 광범위한 실험은 GUIDE가 다중 에이전트 시스템과 단일 모델 에이전트 모두에 대한 플러그 앤 플레이 구성 요소로서의 일반성을 입증합니다. GUIDE는 모델 파라미터나 아키텍처를 수정하지 않고도 일관되게 5% 이상의 성능 향상을 가져오고 실행 단계를 줄이며, 이는 GUIDE가 GUI 에이전트의 도메인 편향을 해소하는 아키텍처에 독립적인 향상 기술임을 입증합니다.

Original Abstract

Large vision-language models have endowed GUI agents with strong general capabilities for interface understanding and interaction. However, due to insufficient exposure to domain-specific software operation data during training, these agents exhibit significant domain bias - they lack familiarity with the specific operation workflows (planning) and UI element layouts (grounding) of particular applications, limiting their real-world task performance. In this paper, we present GUIDE (GUI Unbiasing via Instructional-Video Driven Expertise), a training-free, plug-and-play framework that resolves GUI agent domain bias by autonomously acquiring domain-specific expertise from web tutorial videos through a retrieval-augmented automated annotation pipeline. GUIDE introduces two key innovations. First, a subtitle-driven Video-RAG pipeline unlocks video semantics through subtitle analysis, performing progressive three-stage retrieval - domain classification, topic extraction, and relevance matching - to identify task-relevant tutorial videos. Second, a fully automated annotation pipeline built on an inverse dynamics paradigm feeds consecutive keyframes enhanced with UI element detection into VLMs, inferring the required planning and grounding knowledge that are injected into the agent's corresponding modules to address both manifestations of domain bias. Extensive experiments on OSWorld demonstrate GUIDE's generality as a plug-and-play component for both multi-agent systems and single-model agents. It consistently yields over 5% improvements and reduces execution steps - without modifying any model parameters or architecture - validating GUIDE as an architecture-agnostic enhancement to bridge GUI agent domain bias.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!