다중 역할 오케스트레이션을 통한 확장 가능한 경량 GUI 에이전트 개발
Towards Scalable Lightweight GUI Agents via Multi-role Orchestration
다중 모달 대규모 언어 모델(MLLM) 기반의 자율 그래픽 사용자 인터페이스(GUI) 에이전트는 최종 사용자 장치에서 디지털 자동화를 가능하게 합니다. 모델 파라미터와 데이터 규모를 확장함으로써 상당한 성능 향상을 얻었지만, 최첨단 방법은 여전히 자원 제약적인 장치에서 사용하기에 비용이 너무 높습니다. 복잡한 실제 시나리오에서 경량 GUI 에이전트는 제한된 용량과 엔드 투 엔드 에피소드 학습 방식 하에서의 낮은 작업 확장성으로 인해 병목 현상을 겪으며, 다중 에이전트 시스템(MAS)으로의 적응을 어렵게 만듭니다. 또한, 여러 가지 특정 기술을 가진 전문가 모델을 훈련하는 것은 비용이 많이 듭니다. 이 비용-확장성 딜레마에서 효과적인 균형을 찾고, 경량 MLLM이 실제 GUI 워크플로우에 참여할 수 있도록 할 수 있을까요? 이러한 과제를 해결하기 위해, GUI 특정 지식과 작업 확장성을 경량 MLLM에 부여하고, 다중 역할 오케스트레이션을 통해 GUI 자동화의 능력을 확장할 수 있도록 하는 LAMO 프레임워크를 제안합니다. LAMO는 역할 기반 데이터 합성 기술과 두 단계의 훈련 방식을 결합합니다. (i) 지식 증류 및 시각적 인식 향상을 위한 퍼플렉시티 가중 크로스 엔트로피 최적화를 사용한 지도 학습 미세 조정, 그리고 (ii) 역할 기반 협력적 탐색을 위한 강화 학습입니다. LAMO를 통해, 우리는 단일 모델로 실행 가능하고 MAS 스타일의 오케스트레이션을 지원하는 작업 확장형 네이티브 GUI 에이전트인 LAMO-3B를 개발했습니다. LAMO-3B는 고급 플래너를 플러그 앤 플레이 방식으로 통합하여 정책 실행기로 사용할 수 있으며, 이를 통해 플래너의 발전으로부터 지속적으로 이점을 얻을 수 있어 더 높은 성능을 달성할 수 있습니다. 광범위한 정적 및 온라인 평가를 통해 우리의 설계가 효과적임을 검증했습니다.
Autonomous Graphical User Interface (GUI) agents powered by Multimodal Large Language Models (MLLMs) enable digital automation on end-user devices. While scaling both parameters and data has yielded substantial gains, advanced methods still suffer from prohibitive deployment costs on resource-constrained devices. When facing complex in-the-wild scenarios, lightweight GUI agents are bottlenecked by limited capacity and poor task scalability under end-to-end episodic learning, impeding adaptation to multi-agent systems (MAS), while training multiple skill-specific experts remains costly. Can we strike an effective trade-off in this cost-scalability dilemma, enabling lightweight MLLMs to participate in realistic GUI workflows? To address these challenges, we propose the LAMO framework, which endows a lightweight MLLM with GUI-specific knowledge and task scalability, allowing multi-role orchestration to expand its capability boundary for GUI automation. LAMO combines role-oriented data synthesis with a two-stage training recipe: (i) supervised fine-tuning with Perplexity-Weighted Cross-Entropy optimization for knowledge distillation and visual perception enhancement, and (ii) reinforcement learning for role-oriented cooperative exploration. With LAMO, we develop a task-scalable native GUI agent, LAMO-3B, supporting monolithic execution and MAS-style orchestration. When paired with advanced planners as a plug-and-play policy executor, LAMO-3B can continuously benefit from planner advances, enabling a higher performance ceiling. Extensive static and online evaluations validate the effectiveness of our design.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.