트로이의 속삭임: 주입된 초기화 지침을 통한 OpenClaw의 은밀한 조작
Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance
자율 코딩 에이전트는 소프트웨어 개발 워크플로우에 점점 더 통합되어 코드 제안을 넘어 적극적인 시스템 상호 작용 및 환경 관리를 제공합니다. 이 분야의 대표적인 플랫폼인 OpenClaw는 확장 가능한 기술 생태계를 도입하여, 타사 개발자가 에이전트 초기화 과정에서 라이프사이클 훅을 통해 행동 지침을 주입할 수 있도록 합니다. 이러한 설계는 자동화 및 사용자 정의를 향상시키지만, 동시에 새로운 공격 경로를 야기합니다. 본 논문에서는 '지침 주입(guidance injection)'이라는 은밀한 공격 벡터를 식별하고 체계적으로 분석합니다. 이는 악성 운영 내용을 초기화 지침 파일에 숨겨 넣는 방식입니다. 기존의 프롬프트 주입과 달리, 지침 주입은 명시적인 악성 명령어를 사용하지 않고, 에이전트의 추론 맥락을 조작하여 유해한 작업을 일상적인 모범 사례로 위장합니다. 이러한 내용은 에이전트의 해석 프레임워크에 자동으로 통합되어 의심을 불러일으키지 않고 향후 작업 실행에 영향을 미칩니다. 우리는 자격 증명 탈취, 작업 공간 파괴, 권한 상승 및 지속적인 백도어 설치를 포함한 13가지 공격 범주에 걸쳐 26개의 악성 기술을 개발했습니다. 우리는 개발자 작업 공간 벤치마크인 ORE-Bench를 사용하여 이러한 공격을 평가했습니다. 52개의 실제 사용자 프롬프트와 6개의 최첨단 LLM 백엔드를 사용하여, 공격 성공률은 16.0%에서 64.2%에 이르렀으며, 대부분의 악성 작업이 사용자 확인 없이 자율적으로 실행되었습니다. 또한, 94%의 악성 기술이 기존의 정적 분석 도구 및 LLM 기반 스캐너에 의해 탐지되지 않았습니다. 우리의 연구 결과는 자율 에이전트 생태계 설계의 근본적인 문제점을 드러내며, 기능 격리, 런타임 정책 시행 및 투명한 지침 출처 추적을 기반으로 하는 방어 체계의 시급한 필요성을 강조합니다.
Autonomous coding agents are increasingly integrated into software development workflows, offering capabilities that extend beyond code suggestion to active system interaction and environment management. OpenClaw, a representative platform in this emerging paradigm, introduces an extensible skill ecosystem that allows third-party developers to inject behavioral guidance through lifecycle hooks during agent initialization. While this design enhances automation and customization, it also opens a novel and unexplored attack surface. In this paper, we identify and systematically characterize guidance injection, a stealthy attack vector that embeds adversarial operational narratives into bootstrap guidance files. Unlike traditional prompt injection, which relies on explicit malicious instructions, guidance injection manipulates the agent's reasoning context by framing harmful actions as routine best practices. These narratives are automatically incorporated into the agent's interpretive framework and influence future task execution without raising suspicion.We construct 26 malicious skills spanning 13 attack categories including credential exfiltration, workspace destruction, privilege escalation, and persistent backdoor installation. We evaluate them using ORE-Bench, a realistic developer workspace benchmark we developed. Across 52 natural user prompts and six state-of-the-art LLM backends, our attacks achieve success rates from 16.0% to 64.2%, with the majority of malicious actions executed autonomously without user confirmation. Furthermore, 94% of our malicious skills evade detection by existing static and LLM-based scanners. Our findings reveal fundamental tensions in the design of autonomous agent ecosystems and underscore the urgent need for defenses based on capability isolation, runtime policy enforcement, and transparent guidance provenance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.