2604.01676v1 Apr 02, 2026 cs.CV

GPA: 시연을 통한 GUI 프로세스 자동화 학습

GPA: Learning GUI Process Automation from Demonstrations

Silvio Savarese
Silvio Savarese
Citations: 838
h-index: 3
Zirui Zhao
Zirui Zhao
Citations: 175
h-index: 4
J. Liew
J. Liew
Citations: 3,928
h-index: 24
Yan Yang
Yan Yang
Citations: 67
h-index: 4
Wenzhuo Yang
Wenzhuo Yang
Citations: 122
h-index: 3
Doyen Sahoo
Doyen Sahoo
Citations: 7,172
h-index: 36
Junnan Li
Junnan Li
Citations: 1,041
h-index: 14
Ziyang Luo
Ziyang Luo
Citations: 690
h-index: 8

GUI 프로세스 자동화(GPA)는 경량이지만 일반적인 비전 기반 로보틱 프로세스 자동화(RPA) 기술로, 단 하나의 시연만으로 빠르고 안정적인 프로세스 반복을 가능하게 합니다. 기존 RPA의 취약점과 현재의 비전 언어 모델 기반 GUI 에이전트의 비결정적 위험을 해결하기 위해 GPA는 다음과 같은 세 가지 핵심 이점을 제공합니다. (1) 순차적 몬테카를로 기반의 위치 추정을 통해 크기 조정 및 탐지 불확실성을 처리하여 견고성을 확보합니다. (2) 준비 상태 보정을 통해 결정론적이고 신뢰성을 보장합니다. (3) 빠른, 완전한 로컬 실행을 통해 개인 정보를 보호합니다. 이러한 접근 방식은 기업 워크플로우에 필요한 적응성, 견고성 및 보안을 제공합니다. 또한 GPA는 코딩 기능을 갖춘 다른 에이전트의 MCP/CLI 도구로 사용될 수 있으며, 에이전트는 추론 및 조정만 수행하고 GPA가 GUI 실행을 담당합니다. GPA를 Gemini 3 Pro (CUA 도구 포함)와 비교한 파일럿 실험을 통해 GPA가 장기적인 GUI 작업을 수행하는 데 있어 10배 빠른 실행 속도로 더 높은 성공률을 달성한다는 것을 확인했습니다.

Original Abstract

GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.

0 Citations
0 Influential
18 Altmetric
90.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!