2601.12822v1 Jan 19, 2026 cs.AI

MirrorGuard: 시뮬레이션-현실 추론 교정을 통한 안전한 컴퓨터 사용 에이전트를 향하여

MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction

Geng Hong
Geng Hong
Citations: 314
h-index: 7
Xu Pan
Xu Pan
Citations: 81
h-index: 6
Jiarun Dai
Jiarun Dai
Citations: 212
h-index: 8
Wenqi Zhang
Wenqi Zhang
Citations: 7
h-index: 1
Changyue Jiang
Changyue Jiang
Citations: 31
h-index: 2
Yulin Shen
Yulin Shen
Citations: 7
h-index: 2

대규모 파운데이션 모델들이 컴퓨터 사용 에이전트(CUA)에 통합되어, 그래픽 사용자 인터페이스(GUI)를 통해 운영 체제와 자율적으로 상호 작용하며 복잡한 작업을 수행할 수 있게 되었다. 이러한 자율성은 심각한 보안 위험을 초래하는데, 악의적인 지시나 시각적 프롬프트 주입이 안전하지 않은 추론을 유발하여 시스템 수준의 해로운 동작을 야기할 수 있다. 탐지 기반 차단과 같은 기존 방어 기법들은 피해를 예방할 수는 있으나, 종종 작업을 조기에 중단시켜 에이전트의 효용성을 떨어뜨린다. 본 논문에서는 시뮬레이션 기반 학습을 활용하여 현실 세계에서의 CUA 보안을 향상시키는 플러그 앤 플레이 방어 프레임워크인 MirrorGuard를 제안한다. 운영 체제에서의 대규모 학습 비용을 줄이기 위해, 우리는 새로운 뉴로 심볼릭(neural-symbolic) 시뮬레이션 파이프라인을 제안한다. 이는 실제 작업을 실행하지 않고도 안전하지 않은 추론 패턴과 잠재적인 시스템 위험을 포착하는 텍스트 기반 시뮬레이션 환경에서, 현실적이고 위험도 높은 GUI 상호 작용 궤적을 전적으로 생성해낸다. 시뮬레이션 환경 내에서 MirrorGuard는 CUA가 안전하지 않은 동작을 생성하고 실행하기 전에, 불안전한 추론 사슬을 가로채고 교정하는 방법을 학습한다. 실제 환경 테스트에서 다양한 벤치마크와 CUA 아키텍처에 걸친 광범위한 평가를 수행한 결과, MirrorGuard가 보안 위험을 유의미하게 완화함을 확인하였다. 예를 들어, ByteDance의 UI-TARS 시스템에서 미미한 수준의 오거부율(FRR)을 유지하면서도 불안전 비율을 66.5%에서 13.0%로 감소시켰다. 대조적으로, 최신 기술인 GuardAgent는 불안전 비율을 53.9%까지만 낮추었으며, FRR은 15.4% 더 높게 나타났다. 본 연구는 시뮬레이션에서 파생된 방어 기법이 에이전트의 근본적인 효용성을 유지하면서도 견고한 현실 세계 보호 기능을 제공할 수 있음을 입증한다. 우리의 코드와 모델은 https://bmz-q-q.github.io/MirrorGuard/ 에서 공개적으로 이용 가능하다.

Original Abstract

Large foundation models are integrated into Computer Use Agents (CUAs), enabling autonomous interaction with operating systems through graphical user interfaces (GUIs) to perform complex tasks. This autonomy introduces serious security risks: malicious instructions or visual prompt injections can trigger unsafe reasoning and cause harmful system-level actions. Existing defenses, such as detection-based blocking, prevent damage but often abort tasks prematurely, reducing agent utility. In this paper, we present MirrorGuard, a plug-and-play defense framework that uses simulation-based training to improve CUA security in the real world. To reduce the cost of large-scale training in operating systems, we propose a novel neural-symbolic simulation pipeline, which generates realistic, high-risk GUI interaction trajectories entirely in a text-based simulated environment, which captures unsafe reasoning patterns and potential system hazards without executing real operations. In the simulation environment, MirrorGuard learns to intercept and rectify insecure reasoning chains of CUAs before they produce and execute unsafe actions. In real-world testing, extensive evaluations across diverse benchmarks and CUA architectures show that MirrorGuard significantly mitigates security risks. For instance, on the ByteDance UI-TARS system, it reduces the unsafe rate from 66.5% to 13.0% while maintaining a marginal false refusal rate (FRR). In contrast, the state-of-the-art GuardAgent only achieves a reduction to 53.9% and suffers from a 15.4% higher FRR. Our work proves that simulation-derived defenses can provide robust, real-world protection while maintaining the fundamental utility of the agent. Our code and model are publicly available at https://bmz-q-q.github.io/MirrorGuard/.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!