2601.09923v1 Jan 14, 2026 cs.AI

CaMeLs도 컴퓨터를 사용할 수 있다: 컴퓨터 사용 에이전트를 위한 시스템 수준 보안

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Hanna Foerster
Hanna Foerster
Citations: 23
h-index: 3
Robert D. Mullins
Robert D. Mullins
Citations: 79
h-index: 4
Nicolas Papernot
Nicolas Papernot
Citations: 5,684
h-index: 31
Kristina Nikoli'c
Kristina Nikoli'c
Citations: 37
h-index: 3
F. Tramèr
F. Tramèr
Citations: 1,072
h-index: 14
Ilia Shumailov
Ilia Shumailov
Citations: 57
h-index: 4
Yiren Zhao
Yiren Zhao
Citations: 1,662
h-index: 13
Tom Blanchard
Tom Blanchard
Citations: 22
h-index: 2
Cheng Zhang
Cheng Zhang
Citations: 6
h-index: 1

AI 에이전트는 악성 콘텐츠가 에이전트의 행동을 탈취하여 자격 증명을 훔치거나 금전적 손실을 유발하는 프롬프트 주입 공격에 취약하다. 이에 대한 유일하게 알려진 견고한 방어책은 신뢰할 수 있는 작업 계획과 신뢰할 수 없는 환경 관측을 엄격히 분리하는 아키텍처 격리이다. 그러나 화면을 보고 작업을 수행하여 업무를 자동화하는 시스템인 컴퓨터 사용 에이전트(CUA)에 이 설계를 적용하는 것은 근본적인 난관에 부딪힌다. 현재의 에이전트는 각 행동을 결정하기 위해 UI 상태를 지속적으로 관측해야 하는데, 이는 보안에 필요한 격리와 상충하기 때문이다. 우리는 UI 워크플로가 동적이긴 하지만 구조적으로는 예측 가능하다는 점을 보임으로써 이러한 딜레마를 해결한다. 우리는 CUA를 위한 '싱글 샷 계획(Single-Shot Planning)'을 제안한다. 이는 신뢰할 수 있는 계획자가 잠재적으로 악의적인 콘텐츠를 관측하기 전에 조건부 분기가 포함된 완전한 실행 그래프를 생성하여, 임의의 명령어 주입에 대해 증명 가능한 제어 흐름 무결성을 보장한다. 이러한 아키텍처 격리가 명령어 주입을 성공적으로 방지하지만, 우리는 UI 요소를 조작하여 계획 내의 의도치 않은 유효 경로를 유발하는 '브랜치 스티어링(Branch Steering)' 공격을 막기 위해 추가적인 조치가 필요함을 보인다. 우리는 OSWorld에서 이 설계를 평가하여 최첨단 모델 성능의 최대 57%를 유지하는 동시에 소규모 오픈 소스 모델의 성능은 최대 19% 향상시켰으며, 이를 통해 CUA에서 철저한 보안과 실용성이 공존할 수 있음을 입증했다.

Original Abstract

AI agents are vulnerable to prompt injection attacks, where malicious content hijacks agent behavior to steal credentials or cause financial loss. The only known robust defense is architectural isolation that strictly separates trusted task planning from untrusted environment observations. However, applying this design to Computer Use Agents (CUAs) -- systems that automate tasks by viewing screens and executing actions -- presents a fundamental challenge: current agents require continuous observation of UI state to determine each action, conflicting with the isolation required for security. We resolve this tension by demonstrating that UI workflows, while dynamic, are structurally predictable. We introduce Single-Shot Planning for CUAs, where a trusted planner generates a complete execution graph with conditional branches before any observation of potentially malicious content, providing provable control flow integrity guarantees against arbitrary instruction injections. Although this architectural isolation successfully prevents instruction injections, we show that additional measures are needed to prevent Branch Steering attacks, which manipulate UI elements to trigger unintended valid paths within the plan. We evaluate our design on OSWorld, and retain up to 57% of the performance of frontier models while improving performance for smaller open-source models by up to 19%, demonstrating that rigorous security and utility can coexist in CUAs.

1 Citations
0 Influential
15.5 Altmetric
78.5 Score

AI Analysis

Korean Summary

이 논문은 컴퓨터 사용 에이전트(CUA)가 시각적 프롬프트 주입 공격(예: 악성 광고, 팝업)에 취약하다는 점을 지적하고, 이를 해결하기 위해 'Dual-LLM' 아키텍처를 CUA에 적용하는 방법을 제안합니다. 제안된 'Single-Shot Planning'은 신뢰할 수 없는 환경(스크린샷 등)을 관찰하기 전에, 신뢰할 수 있는 계획 수립 모델(P-LLM)이 조건부 분기가 포함된 전체 실행 그래프를 미리 생성하도록 하여 제어 흐름 무결성(CFI)을 보장합니다. 연구진은 이 구조에서도 발생할 수 있는 데이터 흐름 공격인 'Branch Steering(분기 조작)'을 새롭게 정의하고, 이를 방어하기 위해 DOM 일관성 확인 및 멀티모달 합의와 같은 중복 검증 메커니즘을 도입했습니다. OSWorld 벤치마크 평가 결과, 이 아키텍처는 보안을 강화하면서도 대형 모델의 성능을 일정 수준 유지하고 소형 모델의 성능은 오히려 향상시킬 수 있음을 입증했습니다.

Key Innovations

  • CUA를 위한 Single-Shot Planning: 환경 관찰 전 루프와 조건문이 포함된 전체 실행 계획 생성
  • Observe-Verify-Act 방법론: 동적 환경 변화에 대응하기 위한 3단계(관찰-검증-행동) 계획 구조화
  • Branch Steering 공격 식별: 에이전트의 유효한 계획 내에서 시각적 단서를 조작해 의도치 않은 경로를 선택하게 만드는 공격 기법
  • 중복성 기반 방어(Redundancy Defenses): DOM 데이터와 시각적 정보의 일치 여부 확인 및 다중 모델 합의를 통한 공격 탐지
  • Dual-LLM 아키텍처의 CUA 적용: 고지능 계획 모델(P-LLM)과 격리된 인식 모델(Q-VLM)의 역할 분리

Learning & Inference Impact

추론 과정에서 이 아키텍처는 에이전트의 워크플로우를 근본적으로 변화시킵니다. 기존의 반복적인 '관찰-생각-행동' 루프 대신, 계획 수립 단계와 실행 단계를 분리함으로써 고성능 모델(P-LLM)의 API 호출 횟수를 획기적으로 줄여 비용을 절감합니다. 또한, 민감한 환경 정보(스크린샷)가 외부의 계획 수립 모델로 전송되지 않도록 하여 프라이버시를 강화하고, 로컬에서 구동되는 소형 모델(Q-VLM)을 활용한 하이브리드 배포를 가능하게 합니다. 학습 측면에서는 별도의 모델 재학습 없이 시스템 프롬프트 엔지니어링과 아키텍처 변경만으로 소형 오픈소스 모델의 추론 및 계획 능력을 보완하여 성능을 최대 19% 향상시키는 효과를 보여줍니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!