GPA: 시연을 통한 GUI 프로세스 자동화 학습
GPA: Learning GUI Process Automation from Demonstrations
GUI 프로세스 자동화(GPA)는 경량이지만 일반적인 비전 기반 로보틱 프로세스 자동화(RPA) 기술로, 단 하나의 시연만으로 빠르고 안정적인 프로세스 반복을 가능하게 합니다. 기존 RPA의 취약점과 현재의 비전 언어 모델 기반 GUI 에이전트의 비결정적 위험을 해결하기 위해 GPA는 다음과 같은 세 가지 핵심 이점을 제공합니다. (1) 순차적 몬테카를로 기반의 위치 추정을 통해 크기 조정 및 탐지 불확실성을 처리하여 견고성을 확보합니다. (2) 준비 상태 보정을 통해 결정론적이고 신뢰성을 보장합니다. (3) 빠른, 완전한 로컬 실행을 통해 개인 정보를 보호합니다. 이러한 접근 방식은 기업 워크플로우에 필요한 적응성, 견고성 및 보안을 제공합니다. 또한 GPA는 코딩 기능을 갖춘 다른 에이전트의 MCP/CLI 도구로 사용될 수 있으며, 에이전트는 추론 및 조정만 수행하고 GPA가 GUI 실행을 담당합니다. GPA를 Gemini 3 Pro (CUA 도구 포함)와 비교한 파일럿 실험을 통해 GPA가 장기적인 GUI 작업을 수행하는 데 있어 10배 빠른 실행 속도로 더 높은 성공률을 달성한다는 것을 확인했습니다.
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.