조수에서 이중 첩자로: 개인화된 로컬 AI 에이전트 OpenClaw에 대한 공격 정형화 및 벤치마킹
From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for Personalized Local AI Agent
OpenClaw로 대표되는 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 현실 세계의 과제를 해결하기 위해 작업 지향적 시스템에서 개인화된 AI 비서로 점차 진화하고 있지만, 실제 배포는 심각한 보안 위험을 초래하기도 한다. 그러나 기존의 에이전트 보안 연구 및 평가 프레임워크는 주로 합성 또는 작업 중심 환경에 초점을 맞추고 있어, 실제 배포 시 개인화된 에이전트의 공격 표면과 위험 전파 메커니즘을 정확하게 포착하지 못한다. 이러한 격차를 해소하기 위해 우리는 실제 개인화된 에이전트에 맞춤화된 엔드투엔드 보안 평가 프레임워크인 PASB(Personalized Agent Security Bench)를 제안한다. 기존 에이전트 공격 패러다임을 기반으로 구축된 PASB는 개인화된 사용 시나리오, 현실적인 툴체인, 장기적인 상호작용을 통합하여 실제 시스템에 대한 블랙박스 형태의 엔드투엔드 보안 평가를 가능하게 한다. OpenClaw를 대표적인 사례 연구로 사용하여, 우리는 다양한 개인화 시나리오, 도구 기능 및 공격 유형에 걸쳐 보안성을 체계적으로 평가한다. 연구 결과, OpenClaw는 사용자 프롬프트 처리, 도구 사용, 메모리 검색을 포함한 다양한 실행 단계에서 치명적인 취약점을 드러냈으며, 이는 개인화된 에이전트 배포 시 상당한 보안 위험이 존재함을 시사한다. 제안된 PASB 프레임워크의 코드는 https://github.com/AstorYH/PASB에서 확인할 수 있다.
Although large language model (LLM)-based agents, exemplified by OpenClaw, are increasingly evolving from task-oriented systems into personalized AI assistants for solving complex real-world tasks, their practical deployment also introduces severe security risks. However, existing agent security research and evaluation frameworks primarily focus on synthetic or task-centric settings, and thus fail to accurately capture the attack surface and risk propagation mechanisms of personalized agents in real-world deployments. To address this gap, we propose Personalized Agent Security Bench (PASB), an end-to-end security evaluation framework tailored for real-world personalized agents. Building upon existing agent attack paradigms, PASB incorporates personalized usage scenarios, realistic toolchains, and long-horizon interactions, enabling black-box, end-to-end security evaluation on real systems. Using OpenClaw as a representative case study, we systematically evaluate its security across multiple personalized scenarios, tool capabilities, and attack types. Our results indicate that OpenClaw exhibits critical vulnerabilities at different execution stages, including user prompt processing, tool usage, and memory retrieval, highlighting substantial security risks in personalized agent deployments. The code for the proposed PASB framework is available at https://github.com/AstorYH/PASB.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.