2602.07153v1 Feb 06, 2026 cs.AI

ANCHOR: GUI 에이전트를 위한 분기점 데이터 생성

ANCHOR: Branch-Point Data Generation for GUI Agents

Jinbiao Wei
Jinbiao Wei
Citations: 1
h-index: 1
Yilun Zhao
Yilun Zhao
Citations: 2,492
h-index: 29
Kangqi Ni
Kangqi Ni
Citations: 44
h-index: 2
Arman Cohan
Arman Cohan
Citations: 1,791
h-index: 23

실제 데스크톱 환경에서 작동하는 엔드투엔드 GUI 에이전트는 방대한 양의 고품질 상호 작용 데이터가 필요하지만, 인간의 시연 데이터를 수집하는 것은 비용이 많이 들고, 기존의 합성 파이프라인은 종종 제한된 작업 다양성이나 노이즈가 많고 목표가 벗어난 경로 문제를 겪습니다. 본 논문에서는 작은 규모의 검증된 초기 시연 데이터를 기반으로 확장 가능한 데스크톱 환경의 감독 학습을 지원하는 Anchor라는 경로 확장 프레임워크를 제안합니다. 각 초기 시연에서, 의미 있는 상태 변화에 해당하는 분기점을 식별하고, 현재 GUI 컨텍스트에 따라 새로운, 상태 기반의 작업 변형을 제안합니다. 실행 중인 에이전트는 제안된 지침을 따라 새로운 경로를 생성하며, 검증기는 상태 인식을 통해 작업 완료를 보장하고 경로 수준의 일관성을 유지합니다. 감독 학습의 품질을 향상시키기 위해, 우리는 작업에 따라 단계별 필터링을 적용하여 근거가 없는 동작을 제거하고 분기 이후의 경로에서 노이즈를 줄여 일관된 의도를 유지합니다. 표준 데스크톱 벤치마크인 OSWorld 및 WindowsAgentArena에서 수행한 실험 결과, 우리의 확장된 데이터셋으로 fine-tuning된 모델은 zero-shot 에이전트 및 대표적인 합성 기반 모델보다 일관된 성능 향상을 보이며, 다양한 애플리케이션 및 운영 체제에서 일반화 성능을 나타냅니다.

Original Abstract

End-to-end GUI agents for real desktop environments require large amounts of high-quality interaction data, yet collecting human demonstrations is expensive and existing synthetic pipelines often suffer from limited task diversity or noisy, goal-drifting trajectories. We present a trajectory expansion framework Anchor that bootstraps scalable desktop supervision from a small set of verified seed demonstrations. Starting from each seed, we identify branch points that correspond to meaningful state changes and propose new, state-grounded task variants conditioned on the current GUI context. An executing agent then follows the proposed instructions to generate new trajectories, while a verifier enforces task completion via state-aware checks and trajectory-level consistency. To improve supervision quality, we further apply task-conditioned step-level filtering to remove ungrounded actions and denoise post-branch segments to maintain coherent intent. Experiments on standard desktop benchmarks, OSWorld and WindowsAgentArena, show that models fine-tuned on our expanded corpus achieve consistent improvements over zero-shot agents and representative synthesis baselines, and generalize across applications and operating systems.

0 Citations
0 Influential
14.5 Altmetric
72.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!