어시스턴트에서 이중 스파이로: 개인화된 로컬 AI 에이전트 시스템 OpenClaw에 대한 공격을 형식화하고 벤치마킹하기
From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for Personalized Local AI Agent
OpenClaw와 같은 대규모 언어 모델(LLM) 기반 에이전트는 단순한 작업 지향 시스템에서 벗어나 복잡한 실제 문제를 해결하는 개인화된 AI 어시스턴트로 진화하고 있지만, 이러한 시스템의 실제 배포는 심각한 보안 위험을 초래합니다. 그러나 기존의 에이전트 보안 연구 및 평가 프레임워크는 주로 인공적인 환경이나 작업 중심적인 설정에 초점을 맞추고 있으며, 따라서 실제 환경에서의 개인화된 에이전트의 공격 표면과 위험 전파 메커니즘을 정확하게 파악하지 못합니다. 이러한 격차를 해소하기 위해, 실제 개인화된 에이전트를 위한 보안 평가 프레임워크인 Personalized Agent Security Bench (PASB)를 제안합니다. 기존의 에이전트 공격 패러다임을 기반으로, PASB는 개인화된 사용 시나리오, 현실적인 도구 체인, 그리고 장기적인 상호 작용을 통합하여, 실제 시스템에 대한 블랙박스, 엔드투엔드 보안 평가를 가능하게 합니다. 본 연구에서는 대표적인 사례인 OpenClaw를 사용하여 다양한 개인화된 시나리오, 도구 기능 및 공격 유형에 대한 보안성을 체계적으로 평가했습니다. 그 결과, OpenClaw는 사용자 프롬프트 처리, 도구 사용, 메모리 검색 등 다양한 실행 단계에서 심각한 취약점을 가지고 있으며, 이는 개인화된 에이전트 배포에 상당한 보안 위험을 초래한다는 것을 보여줍니다. 제안된 PASB 프레임워크의 코드는 https://github.com/AstorYH/PASB 에서 확인할 수 있습니다.
Although large language model (LLM)-based agents, exemplified by OpenClaw, are increasingly evolving from task-oriented systems into personalized AI assistants for solving complex real-world tasks, their practical deployment also introduces severe security risks. However, existing agent security research and evaluation frameworks primarily focus on synthetic or task-centric settings, and thus fail to accurately capture the attack surface and risk propagation mechanisms of personalized agents in real-world deployments. To address this gap, we propose Personalized Agent Security Bench (PASB), an end-to-end security evaluation framework tailored for real-world personalized agents. Building upon existing agent attack paradigms, PASB incorporates personalized usage scenarios, realistic toolchains, and long-horizon interactions, enabling black-box, end-to-end security evaluation on real systems. Using OpenClaw as a representative case study, we systematically evaluate its security across multiple personalized scenarios, tool capabilities, and attack types. Our results indicate that OpenClaw exhibits critical vulnerabilities at different execution stages, including user prompt processing, tool usage, and memory retrieval, highlighting substantial security risks in personalized agent deployments. The code for the proposed PASB framework is available at https://github.com/AstorYH/PASB.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.