모바일 에이전트를 위한 호기심 기반 지식 검색
Curiosity Driven Knowledge Retrieval for Mobile Agents
모바일 에이전트는 신뢰할 수 있는 스마트폰 자동화를 향해 발전해 왔지만, 불완전한 지식과 미지의 환경에 대한 취약한 일반화 능력으로 인해 복잡한 애플리케이션에서의 성능은 여전히 제한적입니다. 본 논문에서는 실행 중 발생하는 불확실성을 '호기심 점수(curiosity score)'로 공식화하는 호기심 기반 지식 검색 프레임워크를 제안합니다. 이 점수가 임계값을 초과할 경우, 시스템은 문서, 코드 저장소, 과거 궤적에서 외부 정보를 검색합니다. 검색된 콘텐츠는 기능적 의미, 매개변수 관례, 인터페이스 매핑 및 상호작용 패턴을 인코딩하는 구조화된 'AppCards'로 정리됩니다. 실행 과정에서 강화된 에이전트는 관련 AppCards를 추론 과정에 선택적으로 통합함으로써 지식의 사각지대를 보완하고 계획의 신뢰성을 높입니다. AndroidWorld 벤치마크 평가 결과, 다양한 백본 모델에서 일관된 성능 향상을 보였으며, 평균 6% 포인트의 상승을 기록했고 특히 GPT-5와 결합 시 88.8%라는 최고 수준(SOTA)의 성공률을 달성했습니다. 분석 결과 AppCards는 다단계 및 교차 애플리케이션 작업에서 특히 효과적이었으며, 성능 향상 폭은 백본 모델에 따라 상이한 것으로 나타났습니다. 사례 연구를 통해 AppCards가 모호성을 줄이고 탐색 과정을 단축하며 안정적인 실행 궤적을 지원함을 확인했습니다. 작업 궤적은 https://lisalsj.github.io/Droidrun-appcard/ 에서 확인할 수 있습니다.
Mobile agents have made progress toward reliable smartphone automation, yet performance in complex applications remains limited by incomplete knowledge and weak generalization to unseen environments. We introduce a curiosity driven knowledge retrieval framework that formalizes uncertainty during execution as a curiosity score. When this score exceeds a threshold, the system retrieves external information from documentation, code repositories, and historical trajectories. Retrieved content is organized into structured AppCards, which encode functional semantics, parameter conventions, interface mappings, and interaction patterns. During execution, an enhanced agent selectively integrates relevant AppCards into its reasoning process, thereby compensating for knowledge blind spots and improving planning reliability. Evaluation on the AndroidWorld benchmark shows consistent improvements across backbones, with an average gain of six percentage points and a new state of the art success rate of 88.8\% when combined with GPT-5. Analysis indicates that AppCards are particularly effective for multi step and cross application tasks, while improvements depend on the backbone model. Case studies further confirm that AppCards reduce ambiguity, shorten exploration, and support stable execution trajectories. Task trajectories are publicly available at https://lisalsj.github.io/Droidrun-appcard/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.