효율적인 컴퓨터 사용 에이전트를 위한 단계별 최적화
Step-level Optimization for Efficient Computer-use Agents
컴퓨터 사용 에이전트는 다양한 그래픽 사용자 인터페이스와 직접 상호 작용할 수 있기 때문에, 기존의 특정 애플리케이션에 의존적인 방식보다 일반적인 소프트웨어 자동화에 대한 유망한 경로를 제공합니다. 최근 벤치마크 성능이 향상되었음에도 불구하고, 강력한 컴퓨터 사용 에이전트는 여전히 비싸고 느립니다. 이는 대부분의 시스템이 거의 모든 상호 작용 단계에서 대규모 다중 모델을 사용하기 때문입니다. 우리는 이러한 균일한 컴퓨팅 할당이 장기적인 GUI 작업에 근본적으로 비효율적이라고 주장합니다. 이러한 작업 흐름은 매우 이질적이며, 많은 단계는 일상적인 작업으로 작고 저렴한 정책으로 안정적으로 처리할 수 있는 반면, 오류는 상대적으로 적은 수의 고위험 순간에 집중되는 경향이 있습니다. 컴퓨터 사용 벤치마크에서 이러한 실패는 주로 두 가지 형태로 나타납니다. 첫째, 에이전트가 반복적인 작업을 수행하거나 의미 있는 진전을 이루지 못하는 '진행 중단' 현상입니다. 둘째, 에이전트가 사용자의 실제 목표에서 벗어난 후에도 여전히 지역적으로 타당한 작업을 수행하는 '조용한 의미론적 드리프트' 현상입니다. 이러한 비효율성을 해결하기 위해, 우리는 경량화된 학습 모니터가 높은 위험을 감지했을 때에만 더 강력한 모델로 전환하는 이벤트 기반의 단계별 캐스케이드 방식을 컴퓨터 사용 에이전트에 적용하고자 합니다. 우리의 프레임워크는 두 가지 상호 보완적인 신호를 결합합니다. 첫째, 최근의 추론-행동 기록에서 성능 저하를 감지하고 복구를 트리거하는 '멈춤 모니터'입니다. 둘째, 의미적으로 중요한 지점에서 희소한 검증이 드리프트를 감지하는 데 가장 유용한 '마일스톤 모니터'입니다. 이러한 설계는 항상 작동하는 최첨단 모델 추론을, 진화하는 상호 작용 과정에서 적응적이고 필요에 따른 컴퓨팅 할당으로 전환합니다. 이 프레임워크는 모듈화되어 있으며 배포에 중점을 두고 있습니다. 따라서 기존의 컴퓨터 사용 에이전트에 적용할 수 있으며, 기본 에이전트 아키텍처를 변경하거나 대규모 모델을 재학습할 필요가 없습니다.
Computer-use agents provide a promising path toward general software automation because they can interact directly with arbitrary graphical user interfaces instead of relying on brittle, application-specific integrations. Despite recent advances in benchmark performance, strong computer-use agents remain expensive and slow in practice, since most systems invoke large multimodal models at nearly every interaction step. We argue that this uniform allocation of compute is fundamentally inefficient for long-horizon GUI tasks. Such trajectories are highly heterogeneous: many steps are routine and can be handled reliably by smaller, cheaper policies, while errors tend to concentrate at a relatively small number of high-risk moments. Across computer-use benchmarks, these failures repeatedly take two forms: progress stalls, where the agent loops, repeats ineffective actions, or fails to make meaningful progress, and silent semantic drift, where the agent continues taking locally plausible actions after already deviating from the user's true goal. To address this inefficiency, we propose an event-driven, step-level cascade for computer-use agents that runs a small policy by default and escalates to a stronger model only when lightweight learned monitors detect elevated risk. Our framework combines two complementary signals: a Stuck Monitor that detects degraded progress from recent reasoning-action history and triggers recovery, and a Milestone Monitor that identifies semantically meaningful checkpoints where sparse verification is most informative for catching drift. This design turns always-on frontier-model inference into adaptive, on-demand compute allocation over the course of an evolving interaction. The framework is modular and deployment-oriented: it can be layered on top of existing computer-use agents without changing the underlying agent architecture or retraining the large model.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.