K^2-Agent: 계층적 모바일 장치 제어를 위한 공진화하는 지식과 기술
K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control
기존의 모바일 장치 제어 에이전트는 일반적으로 장기적인 계획과 정밀한 작업이 필요한 복잡한 작업을 해결하는 데 어려움을 겪으며, 이는 관련 작업 경험 부족이나 기술 실행에 대한 익숙함 부족으로 인해 발생합니다. 본 논문에서는 계획 및 실행을 위해 선언적 지식(무엇을 알아야 하는지)과 절차적 지식(어떻게 해야 하는지)을 분리하고 공진화시키는 계층적 프레임워크인 K2-Agent를 제안합니다. K2-Agent의 상위 레벨 추론기는 각 작업에 대한 단일 데모를 기반으로 시작하여 Summarize-Reflect-Locate-Revise (SRLR) 루프를 실행하여 작업 수준의 선언적 지식을 추출하고 자체 진화를 통해 반복적으로 개선합니다. 하위 레벨 실행기는 우리의 커리큘럼 기반 Group Relative Policy Optimization (C-GRPO)를 사용하여 훈련되며, (i) 분리된 보상 신호를 사용하여 균형 잡힌 샘플 풀을 구성하고, (ii) 동적 데모 주입을 활용하여 모델이 자율적으로 성공적인 학습 경로를 생성하도록 안내합니다. 어려운 AndroidWorld 벤치마크에서 K2-Agent는 원시 스크린샷과 오픈 소스 기반 모델만을 사용하여 76.1%의 성공률을 달성했습니다. 또한, K2-Agent는 강력한 이중 일반화 성능을 보여줍니다. 즉, 상위 레벨의 선언적 지식은 다양한 기본 모델에 걸쳐 전송될 수 있으며, 하위 레벨의 절차적 기술은 ScreenSpot-v2 및 Android-in-the-Wild (AitW)에서 보이지 않는 작업에 대해 경쟁력 있는 성능을 달성합니다.
Existing mobile device control agents often perform poorly when solving complex tasks requiring long-horizon planning and precise operations, typically due to a lack of relevant task experience or unfamiliarity with skill execution. We propose K2-Agent, a hierarchical framework that models human-like cognition by separating and co-evolving declarative (knowing what) and procedural (knowing how) knowledge for planning and execution. K2-Agent's high level reasoner is bootstrapped from a single demonstration per task and runs a Summarize-Reflect-Locate-Revise (SRLR) loop to distill and iteratively refine task-level declarative knowledge through self-evolution. The low-level executor is trained with our curriculum-guided Group Relative Policy Optimization (C-GRPO), which (i) constructs a balanced sample pool using decoupled reward signals and (ii) employs dynamic demonstration injection to guide the model in autonomously generating successful trajectories for training. On the challenging AndroidWorld benchmark, K2-Agent achieves a 76.1% success rate using only raw screenshots and open-source backbones. Furthermore, K2-Agent shows powerful dual generalization: its high-level declarative knowledge transfers across diverse base models, while its low-level procedural skills achieve competitive performance on unseen tasks in ScreenSpot-v2 and Android-in-the-Wild (AitW).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.