MAGNET: 메모리 기반 지식 진화를 통한 적응형 GUI 에이전트를 향하여
MAGNET: Towards Adaptive GUI Agents with Memory-Driven Knowledge Evolution
대규모 파운데이션 모델 기반의 모바일 GUI 에이전트는 자율적인 작업 실행을 가능하게 하지만, UI 외관을 변경하고 워크플로를 재구성하는 잦은 업데이트는 과거 데이터로 훈련된 에이전트가 실패하는 원인이 됩니다. 표면적인 변화에도 불구하고, 기능적 의미와 작업 의도는 근본적으로 안정적인 상태를 유지합니다. 이러한 통찰을 바탕으로, 우리는 이중 수준 메모리를 갖춘 메모리 기반 적응형 에이전트 프레임워크인 MAGNET을 소개합니다. 이는 견고한 행동 그라운딩(action grounding)을 위해 다양한 시각적 특징을 안정적인 기능적 의미와 연결하는 정적 메모리(stationary memory)와, 다양한 워크플로 전반에 걸쳐 안정적인 작업 의도를 포착하는 절차적 메모리(procedural memory)로 구성됩니다. 우리는 자주 접근하는 지식에 우선순위를 두어 두 가지 메모리를 지속적으로 정제하는 동적 메모리 진화 메커니즘을 제안합니다. 온라인 벤치마크인 AndroidWorld 평가 결과 베이스라인 대비 상당한 성능 향상을 보였으며, 오프라인 벤치마크에서도 분포 변화 하에서 일관된 이득을 확인했습니다. 이러한 결과는 인터페이스 변화 전반에 걸쳐 안정적인 구조를 활용하는 것이 진화하는 소프트웨어 환경에서 에이전트의 성능과 일반화 능력을 향상시킨다는 것을 입증합니다.
Mobile GUI agents powered by large foundation models enable autonomous task execution, but frequent updates altering UI appearance and reorganizing workflows cause agents trained on historical data to fail. Despite surface changes, functional semantics and task intents remain fundamentally stable. Building on this insight, we introduce MAGNET, a memory-driven adaptive agent framework with dual-level memory: stationary memory linking diverse visual features to stable functional semantics for robust action grounding and procedural memory capturing stable task intents across varying workflows. We propose a dynamic memory evolution mechanism that continuously refines both memories by prioritizing frequently accessed knowledge. Online benchmark AndroidWorld evaluations show substantial improvements over baselines, while offline benchmarks confirm consistent gains under distribution shifts. These results validate that leveraging stable structures across interface changes improves agent performance and generalization in evolving software environments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.