2604.09155v1 Apr 10, 2026 cs.LG

CORA: 안전한 모바일 GUI 자동화를 위한 준수 위험 제어 에이전트

CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation

Zizhan Ma
Zizhan Ma
Citations: 181
h-index: 5
Junye Du
Junye Du
Citations: 4
h-index: 1
Qifan Wang
Qifan Wang
Citations: 194
h-index: 2
Qianqi Niu
Qianqi Niu
Citations: 2
h-index: 1
Yutaka Matsuo
Yutaka Matsuo
Citations: 24
h-index: 3
Longdi Feng
Longdi Feng
Citations: 1
h-index: 1
Lequan Yu
Lequan Yu
Citations: 46
h-index: 4
Yushi Feng
Yushi Feng
The University of Hong Kong
Citations: 16
h-index: 2

비전 언어 모델(VLMs)을 기반으로 하는 그래픽 사용자 인터페이스(GUI) 에이전트는 수동적인 지원에서 자율적인 작동으로 빠르게 발전하고 있습니다. 그러나 이러한 제약 없는 동작 공간은 사용자에게 심각하고 되돌릴 수 없는 재정적, 개인 정보 또는 사회적 피해를 초래할 수 있습니다. 기존의 안전 장치는 프롬프트 엔지니어링, 취약한 휴리스틱 및 VLM-as-critic에 의존하며, 이는 형식적인 검증이나 사용자 정의 가능한 보장을 제공하지 못합니다. 본 논문에서는 CORA(COnformal Risk-controlled GUI Agent)를 제안합니다. CORA는 사후 정책, 사전 실행 안전 확보 프레임워크로, 위험한 실행 동작에 대한 통계적 보장을 제공합니다. CORA는 안전을 선택적인 동작 실행으로 재정의합니다. 우리는 각 제안된 단계에 대한 동작 조건 위험을 추정하는 Guardian 모델을 학습시킵니다. 단순히 원시 점수를 임계값으로 설정하는 대신, Conformal Risk Control을 활용하여 사용자가 지정한 위험 예산에 만족하는 실행/거부 경계를 조정하고, 거부된 동작을 훈련 가능한 Diagnostician 모델로 라우팅합니다. 이 모델은 거부된 동작에 대한 다중 모드 추론을 수행하여 사용자 부담을 최소화하기 위해 개입(예: 확인, 재고, 중단)을 제안합니다. Goal-Lock 메커니즘은 시각적 공격에 대한 저항력을 높이기 위해 평가를 명확하고 고정된 사용자 의도에 연결합니다. 제안하는 패러다임을 엄격하게 평가하기 위해, 실제 환경에서 단계별 피해 레이블이 포함된 모바일 안전 위반 벤치마크인 Phone-Harm을 소개합니다. Phone-Harm 및 공개 벤치마크에서의 실험 결과는 CORA가 안전성-도움성-중단 간의 Pareto 최적 전선을 개선하며, 자율적인 GUI 실행을 위한 실용적이고 통계적으로 뒷받침된 안전 패러다임을 제공한다는 것을 입증합니다. 코드 및 벤치마크는 cora-agent.github.io에서 확인할 수 있습니다.

Original Abstract

Graphical user interface (GUI) agents powered by vision language models (VLMs) are rapidly moving from passive assistance to autonomous operation. However, this unrestricted action space exposes users to severe and irreversible financial, privacy or social harm. Existing safeguards rely on prompt engineering, brittle heuristics and VLM-as-critic lack formal verification and user-tunable guarantees. We propose CORA (COnformal Risk-controlled GUI Agent), a post-policy, pre-action safeguarding framework that provides statistical guarantees on harmful executed actions. CORA reformulates safety as selective action execution: we train a Guardian model to estimate action-conditional risk for each proposed step. Rather than thresholding raw scores, we leverage Conformal Risk Control to calibrate an execute/abstain boundary that satisfies a user-specified risk budget and route rejected actions to a trainable Diagnostician model, which performs multimodal reasoning over rejected actions to recommend interventions (e.g., confirm, reflect, or abort) to minimize user burden. A Goal-Lock mechanism anchors assessment to a clarified, frozen user intent to resist visual injection attacks. To rigorously evaluate this paradigm, we introduce Phone-Harm, a new benchmark of mobile safety violations with step-level harm labels under real-world settings. Experiments on Phone-Harm and public benchmarks against diverse baselines validate that CORA improves the safety--helpfulness--interruption Pareto frontier, offering a practical, statistically grounded safety paradigm for autonomous GUI execution. Code and benchmark are available at cora-agent.github.io.

1 Citations
1 Influential
2.5 Altmetric
15.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!