AgentHazard: 컴퓨터 사용 에이전트의 유해 행동 평가를 위한 벤치마크
AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents
컴퓨터 사용 에이전트는 언어 모델을 활용하여 텍스트 생성에서 도구, 파일 및 실행 환경에서의 지속적인 상호작용으로 확장됩니다. 챗 시스템과 달리, 이 에이전트들은 상호작용 과정을 통해 상태를 유지하며, 중간 결과를 실제 행동으로 변환합니다. 이러한 특징은 다음과 같은 안전 문제를 야기합니다. 즉, 개별적으로는 합리적으로 보이지만, 전체적으로는 승인되지 않은 행동으로 이어지는 일련의 단계에서 유해한 행동이 발생할 수 있습니다. 본 논문에서는 컴퓨터 사용 에이전트의 유해 행동을 평가하기 위한 벤치마크인 **AgentHazard**를 제시합니다. AgentHazard는 다양한 위험 범주와 공격 전략을 포함하는 **2,653**개의 사례로 구성됩니다. 각 사례는 유해한 목표와 함께, 개별적으로는 정당하지만 전체적으로는 안전하지 않은 행동을 유발하는 운영 단계 시퀀스로 구성됩니다. 이 벤치마크는 에이전트가 누적된 컨텍스트, 반복적인 도구 사용, 중간 행동 및 단계 간의 의존성으로부터 발생하는 유해성을 인지하고 중단할 수 있는지 평가합니다. 우리는 Qwen3, Kimi, GLM 및 DeepSeek 패밀리의 대부분 공개 또는 공개 배포 가능한 모델을 사용하여 Claude Code, OpenClaw 및 IFlow에서 AgentHazard를 평가했습니다. 실험 결과, 현재 시스템은 여전히 심각한 취약점을 가지고 있음을 보여줍니다. 특히, Qwen3-Coder를 기반으로 하는 Claude Code는 **73.63%**의 공격 성공률을 보여주며, 이는 모델 정렬만으로는 자율 에이전트의 안전을 확실하게 보장할 수 없음을 시사합니다.
Computer-use agents extend language models from text generation to persistent action over tools, files, and execution environments. Unlike chat systems, they maintain state across interactions and translate intermediate outputs into concrete actions. This creates a distinct safety challenge in that harmful behavior may emerge through sequences of individually plausible steps, including intermediate actions that appear locally acceptable but collectively lead to unauthorized actions. We present \textbf{AgentHazard}, a benchmark for evaluating harmful behavior in computer-use agents. AgentHazard contains \textbf{2,653} instances spanning diverse risk categories and attack strategies. Each instance pairs a harmful objective with a sequence of operational steps that are locally legitimate but jointly induce unsafe behavior. The benchmark evaluates whether agents can recognize and interrupt harm arising from accumulated context, repeated tool use, intermediate actions, and dependencies across steps. We evaluate AgentHazard on Claude Code, OpenClaw, and IFlow using mostly open or openly deployable models from the Qwen3, Kimi, GLM, and DeepSeek families. Our experimental results indicate that current systems remain highly vulnerable. In particular, when powered by Qwen3-Coder, Claude Code exhibits an attack success rate of \textbf{73.63\%}, suggesting that model alignment alone does not reliably guarantee the safety of autonomous agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.