에이전트 안전의 사각지대: 양성 사용자 지시가 컴퓨터 사용 에이전트의 중요한 취약점을 드러내는 방법
The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents
컴퓨터 사용 에이전트(CUA)는 이제 실제 디지털 환경에서 복잡한 작업을 자율적으로 수행할 수 있지만, 오도될 경우 프로그램적으로 유해한 작업을 자동화하는 데 사용될 수도 있습니다. 기존의 안전성 평가는 주로 오용 및 프롬프트 주입과 같은 명시적인 위협을 대상으로 하지만, 사용자 지시가 완전히 양성이고 피해가 작업 컨텍스트 또는 실행 결과에서 발생하는 미묘하지만 중요한 상황은 간과합니다. 우리는 OS-BLIND라는 벤치마크를 소개합니다. 이 벤치마크는 12개 범주, 8개의 애플리케이션 및 2개의 위협 클러스터(환경 내 위협 및 에이전트 주도적 피해)에 걸쳐 300개의 인간이 설계한 작업으로 CUA를 의도치 않은 공격 조건에서 평가합니다. 최첨단 모델 및 에이전트 프레임워크에 대한 우리의 평가는 대부분의 CUA가 90% 이상의 공격 성공률(ASR)을 보이며, 안전성에 맞춰진 Claude 4.5 Sonnet조차도 73.0%의 ASR을 달성한다는 것을 보여줍니다. 더욱 흥미로운 점은 이 취약성이 멀티 에이전트 시스템에서 Claude 4.5 Sonnet을 사용할 때 ASR이 73.0%에서 92.7%로 증가하면서 더욱 심각해진다는 것입니다. 우리의 분석에 따르면, 사용자 지시가 양성인 경우 기존의 안전 방어 메커니즘은 제한적인 보호 기능을 제공합니다. 안전 정렬은 주로 처음 몇 단계에서만 활성화되며, 이후 실행 과정에서 거의 다시 활성화되지 않습니다. 멀티 에이전트 시스템에서는 분해된 하위 작업이 모델에 대한 악의적인 의도를 가려 안전하게 작동하도록 설계된 모델조차 실패하게 만듭니다. 우리는 OS-BLIND를 공개하여 더 많은 연구자들이 이러한 안전 문제를 더욱 심층적으로 연구하고 해결할 수 있도록 장려하고자 합니다.
Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.