2603.10291v1 Mar 11, 2026 cs.AI

GUI 에이전트를 위한 하이브리드 자기 진화 구조 메모리

Hybrid Self-evolving Structured Memory for GUI Agents

Biwei Huang
Biwei Huang
Citations: 18
h-index: 2
Kun Zhou
Kun Zhou
Citations: 2
h-index: 1
Stephen Wang
Stephen Wang
Citations: 1
h-index: 1
Sibo Zhu
Sibo Zhu
Citations: 120
h-index: 4
Wenyi Wu
Wenyi Wu
Citations: 17
h-index: 2

최근 비전-언어 모델(VLM)의 괄목할 만한 발전으로 GUI 에이전트는 인간과 유사한 방식으로 컴퓨터와 상호 작용할 수 있게 되었습니다. 그러나 장기적인 워크플로우, 다양한 인터페이스, 그리고 빈번한 중간 오류로 인해 실제 컴퓨터 사용 작업은 여전히 어렵습니다. 기존 연구에서는 에이전트에게 대규모 경로 데이터셋으로 구축된 외부 메모리를 제공하지만, 이 방식은 개별적인 요약 또는 연속적인 임베딩을 기반으로 한 단순한 검색에 의존하며, 인간의 메모리의 구조화 및 자기 진화적 특성을 충족하지 못합니다. 뇌에서 영감을 받아, 우리는 이산적인 고수준 심볼 노드와 연속적인 경로 임베딩을 결합한 그래프 기반 메모리인 하이브리드 자기 진화 구조 메모리(HyMEM)를 제안합니다. HyMEM은 멀티홉 검색, 노드 업데이트 작업을 통한 자기 진화, 그리고 추론 과정에서의 실시간 작업 메모리 갱신을 지원하는 그래프 구조를 유지합니다. 광범위한 실험 결과, HyMEM은 오픈 소스 GUI 에이전트의 성능을 지속적으로 향상시키며, 7B/8B 모델이 강력한 상용 모델과 동등하거나 그 이상의 성능을 발휘하도록 합니다. 특히, HyMEM은 Qwen2.5-VL-7B의 성능을 +22.5% 향상시키고, Gemini2.5-Pro-Vision 및 GPT-4o를 능가하는 결과를 보여줍니다.

Original Abstract

The remarkable progress of vision-language models (VLMs) has enabled GUI agents to interact with computers in a human-like manner. Yet real-world computer-use tasks remain difficult due to long-horizon workflows, diverse interfaces, and frequent intermediate errors. Prior work equips agents with external memory built from large collections of trajectories, but relies on flat retrieval over discrete summaries or continuous embeddings, falling short of the structured organization and self-evolving characteristics of human memory. Inspired by the brain, we propose Hybrid Self-evolving Structured Memory (HyMEM), a graph-based memory that couples discrete high-level symbolic nodes with continuous trajectory embeddings. HyMEM maintains a graph structure to support multi-hop retrieval, self-evolution via node update operations, and on-the-fly working-memory refreshing during inference. Extensive experiments show that HyMEM consistently improves open-source GUI agents, enabling 7B/8B backbones to match or surpass strong closed-source models; notably, it boosts Qwen2.5-VL-7B by +22.5% and outperforms Gemini2.5-Pro-Vision and GPT-4o.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!