2603.00676v1 Feb 28, 2026 cs.AI

K^2-Agent: 계층적 모바일 장치 제어를 위한 공진화하는 지식과 기술

K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control

Jianye Hao
Jianye Hao
Citations: 313
h-index: 8
Donglin Mo
Donglin Mo
Citations: 1
h-index: 1
Hongjin Lu
Hongjin Lu
Citations: 239
h-index: 3
Junliang Xing
Junliang Xing
Citations: 35
h-index: 3
Yuheng Jing
Yuheng Jing
Citations: 21
h-index: 2
Kaixin Li
Kaixin Li
Citations: 63
h-index: 3
Kun Shao
Kun Shao
Citations: 44
h-index: 2
Yuanchun Shi
Yuanchun Shi
Citations: 260
h-index: 8
Zhe Wu
Zhe Wu
Citations: 24
h-index: 2
Jianheng Liu
Jianheng Liu
Citations: 72
h-index: 3

기존의 모바일 장치 제어 에이전트는 일반적으로 장기적인 계획과 정밀한 작업이 필요한 복잡한 작업을 해결하는 데 어려움을 겪으며, 이는 관련 작업 경험 부족이나 기술 실행에 대한 익숙함 부족으로 인해 발생합니다. 본 논문에서는 계획 및 실행을 위해 선언적 지식(무엇을 알아야 하는지)과 절차적 지식(어떻게 해야 하는지)을 분리하고 공진화시키는 계층적 프레임워크인 K2-Agent를 제안합니다. K2-Agent의 상위 레벨 추론기는 각 작업에 대한 단일 데모를 기반으로 시작하여 Summarize-Reflect-Locate-Revise (SRLR) 루프를 실행하여 작업 수준의 선언적 지식을 추출하고 자체 진화를 통해 반복적으로 개선합니다. 하위 레벨 실행기는 우리의 커리큘럼 기반 Group Relative Policy Optimization (C-GRPO)를 사용하여 훈련되며, (i) 분리된 보상 신호를 사용하여 균형 잡힌 샘플 풀을 구성하고, (ii) 동적 데모 주입을 활용하여 모델이 자율적으로 성공적인 학습 경로를 생성하도록 안내합니다. 어려운 AndroidWorld 벤치마크에서 K2-Agent는 원시 스크린샷과 오픈 소스 기반 모델만을 사용하여 76.1%의 성공률을 달성했습니다. 또한, K2-Agent는 강력한 이중 일반화 성능을 보여줍니다. 즉, 상위 레벨의 선언적 지식은 다양한 기본 모델에 걸쳐 전송될 수 있으며, 하위 레벨의 절차적 기술은 ScreenSpot-v2 및 Android-in-the-Wild (AitW)에서 보이지 않는 작업에 대해 경쟁력 있는 성능을 달성합니다.

Original Abstract

Existing mobile device control agents often perform poorly when solving complex tasks requiring long-horizon planning and precise operations, typically due to a lack of relevant task experience or unfamiliarity with skill execution. We propose K2-Agent, a hierarchical framework that models human-like cognition by separating and co-evolving declarative (knowing what) and procedural (knowing how) knowledge for planning and execution. K2-Agent's high level reasoner is bootstrapped from a single demonstration per task and runs a Summarize-Reflect-Locate-Revise (SRLR) loop to distill and iteratively refine task-level declarative knowledge through self-evolution. The low-level executor is trained with our curriculum-guided Group Relative Policy Optimization (C-GRPO), which (i) constructs a balanced sample pool using decoupled reward signals and (ii) employs dynamic demonstration injection to guide the model in autonomously generating successful trajectories for training. On the challenging AndroidWorld benchmark, K2-Agent achieves a 76.1% success rate using only raw screenshots and open-source backbones. Furthermore, K2-Agent shows powerful dual generalization: its high-level declarative knowledge transfers across diverse base models, while its low-level procedural skills achieve competitive performance on unseen tasks in ScreenSpot-v2 and Android-in-the-Wild (AitW).

1 Citations
0 Influential
4 Altmetric
21.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!