2602.10915v3 Feb 11, 2026 cs.CR

맹목적인 신과 깨진 화면: 안전하고 의도 중심적인 모바일 에이전트 운영 체제 설계

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System

Zhenhua Zou
Zhenhua Zou
Citations: 18
h-index: 2
Qiuyang Zhan
Qiuyang Zhan
Citations: 9
h-index: 1
Lepeng Zhao
Lepeng Zhao
Citations: 10
h-index: 1
Shuo Li
Shuo Li
Citations: 1
h-index: 1
Qi Li
Qi Li
Citations: 230
h-index: 9
Mingwei Xu
Mingwei Xu
Citations: 92
h-index: 5
Zhuotao Liu
Zhuotao Liu
Citations: 10
h-index: 1
Ke Xu
Ke Xu
Citations: 111
h-index: 6
Sheng Guo
Sheng Guo
Citations: 13
h-index: 2

대규모 언어 모델(LLM)의 발전은 모바일 컴퓨팅을 앱 중심의 상호 작용에서 시스템 수준의 자율 에이전트로 변화시켰습니다. 현재 구현 방식은 주로 "화면을 인터페이스로 사용하는" 패러다임에 의존하며, 이는 구조적인 취약점을 유발하고 모바일 생태계의 경제적 기반과 충돌합니다. 본 논문에서는 Doubao Mobile Assistant를 대표적인 사례로 사용하여 최첨단 모바일 에이전트의 체계적인 보안 분석을 수행합니다. 위협 환경을 에이전트 ID, 외부 인터페이스, 내부 추론, 액션 실행의 네 가지 차원으로 분해하여, 비정형 시각 데이터에 대한 의존성으로 인해 발생하는 가짜 앱 ID, 시각적 위조, 간접적인 프롬프트 주입, 무단 권한 상승과 같은 중요한 결함을 밝혀냅니다. 이러한 문제점을 해결하기 위해, 우리는 깨끗한 설계의 안전한 에이전트 운영 체제를 위한 에이전트 범용 런타임 아키텍처인 Aura를 제안합니다. Aura는 불안정한 GUI 스크래핑을 대체하여 구조화되고 에이전트 친화적인 상호 작용 모델을 채택합니다. Aura는 특권 시스템 에이전트가 의도를 조율하고, 격리된 앱 에이전트가 도메인별 작업을 실행하며, 에이전트 커널이 모든 통신을 중재하는 허브-스포크 토폴로지를 사용합니다. 에이전트 커널은 다음과 같은 네 가지 방어 체계를 구현합니다: (i) 글로벌 에이전트 레지스트리를 통한 암호화된 ID 바인딩, (ii) 다층 시맨틱 방화벽을 통한 의미 기반 입력 필터링, (iii) taint-aware 메모리와 계획-궤적 정렬을 통한 인지적 무결성 유지, (iv) 부정할 수 없는 감사 기능을 갖춘 세분화된 접근 제어. MobileSafetyBench를 사용한 평가 결과, Aura는 Doubao에 비해 낮은 위험 작업 성공률을 약 75%에서 94.3%로 향상시키고, 높은 위험 공격 성공률을 약 40%에서 4.4%로 감소시키며, 거의 10배에 달하는 지연 시간 감소를 달성했습니다. 이러한 결과는 Aura가 "화면을 인터페이스로 사용하는" 패러다임에 대한 실행 가능하고 안전한 대안임을 입증합니다.

Original Abstract

The evolution of Large Language Models (LLMs) has shifted mobile computing from App-centric interactions to system-level autonomous agents. Current implementations predominantly rely on a "Screen-as-Interface" paradigm, which inherits structural vulnerabilities and conflicts with the mobile ecosystem's economic foundations. In this paper, we conduct a systematic security analysis of state-of-the-art mobile agents using Doubao Mobile Assistant as a representative case. We decompose the threat landscape into four dimensions - Agent Identity, External Interface, Internal Reasoning, and Action Execution - revealing critical flaws such as fake App identity, visual spoofing, indirect prompt injection, and unauthorized privilege escalation stemming from a reliance on unstructured visual data. To address these challenges, we propose Aura, an Agent Universal Runtime Architecture for a clean-slate secure agent OS. Aura replaces brittle GUI scraping with a structured, agent-native interaction model. It adopts a Hub-and-Spoke topology where a privileged System Agent orchestrates intent, sandboxed App Agents execute domain-specific tasks, and the Agent Kernel mediates all communication. The Agent Kernel enforces four defense pillars: (i) cryptographic identity binding via a Global Agent Registry; (ii) semantic input sanitization through a multilayer Semantic Firewall; (iii) cognitive integrity via taint-aware memory and plan-trajectory alignment; and (iv) granular access control with non-deniable auditing. Evaluation on MobileSafetyBench shows that, compared to Doubao, Aura improves low-risk Task Success Rate from roughly 75% to 94.3%, reduces high-risk Attack Success Rate from roughly 40% to 4.4%, and achieves near-order-of-magnitude latency gains. These results demonstrate Aura as a viable, secure alternative to the "Screen-as-Interface" paradigm.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!