EE-MCP: 자동화된 환경 생성 및 경험 학습을 통한 자가 진화형 MCP-GUI 에이전트
EE-MCP: Self-Evolving MCP-GUI Agents via Automated Environment Generation and Experience Learning
모델 컨텍스트 프로토콜(MCP)을 통해 GUI 상호 작용과 구조화된 API 호출을 결합하는 컴퓨터 사용 에이전트는 소프트웨어 작업 자동화에 유망한 가능성을 보여줍니다. 그러나 기존 접근 방식은 에이전트가 이러한 두 가지 방식을 어떻게 균형을 이루어야 하는지, 그리고 다양한 애플리케이션에서 반복적인 자기 개선을 어떻게 가능하게 할 수 있는지에 대한 체계적인 이해가 부족합니다. 우리는 MCP-GUI 상호 작용을 통일된 하이브리드 정책 학습 문제로 정의하고, 에이전트가 각 방식이 서로 보완적인 이점을 제공할 때를 학습하도록 합니다. 또한, 증류(distillation)와 경험 증강(experience augmentation)이 근본적으로 다른 실패 모드에 초점을 맞추며, 따라서 애플리케이션에 대한 이해를 바탕으로 적절한 메커니즘을 선택해야 함을 보여줍니다. 이러한 정의를 바탕으로, 우리는 완전 자동화된 파이프라인을 갖춘 자가 진화 프레임워크를 제안합니다. 이 파이프라인은 자동화된 환경 생성 및 검증, 트래jectory 수집, 격차 기반 작업 합성, 품질 필터링된 학습을 수행하며, 모든 과정에서 수동 개입이 필요하지 않습니다. 핵심적인 혁신은 LLM(대규모 언어 모델)이 학습한 규칙을 트래jectory 비교를 통해 축적하는 경험 은행(experience bank)입니다. 이를 통해 미세 조정 없이도 추론 시 성능을 향상시킬 수 있습니다. 세 가지 데스크톱 애플리케이션에 대한 체계적인 교차 애플리케이션 분석 결과, 최적의 전략은 MCP-GUI 구성에 따라 달라지는 것으로 나타났습니다. 증류는 MCP가 지배적인 작업에서 77.8%의 성공률을 달성했습니다(+17.8pp), 반면 경험 은행은 GUI 집약적인 작업에서 뛰어난 성능을 보였습니다(+10.0pp).
Computer-use agents that combine GUI interaction with structured API calls via the Model Context Protocol (MCP) show promise for automating software tasks. However, existing approaches lack a principled understanding of how agents should balance these two modalities and how to enable iterative self-improvement across diverse applications. We formulate MCP-GUI interplay as a unified hybrid policy learning problem where the agent learns when each modality provides complementary advantages, and show that distillation and experience augmentation target fundamentally different failure modes - requiring application-aware mechanism selection. Built on this formulation, we propose a self-evolving framework with a fully automatic pipeline that orchestrates automatic environment generation and validation, trajectory collection, gap-driven task synthesis, and quality-filtered training - all without manual intervention. A key innovation is our experience bank, which accumulates LLM-learned rules from trajectory comparison, enabling inference-time improvement without fine-tuning. Systematic \textbf{cross-application analysis} across three desktop applications reveals that the optimal strategy depends on MCP-GUI composition: distillation achieves 77.8\% pass rate on MCP-dominant tasks (+17.8pp), while the experience bank excels on GUI-intensive tasks (+10.0pp).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.