좀비 에이전트: 자체 강화 주입을 통한 자가 진화형 LLM 에이전트의 지속적인 제어
Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections
자가 진화형 LLM 에이전트는 세션 간에 내부 상태를 업데이트하며, 종종 장기 기억을 기록하고 재사용합니다. 이러한 설계는 장기적인 작업에서 성능을 향상시키지만, 보안 위험을 초래합니다. 양성 세션 동안 관찰된 신뢰할 수 없는 외부 콘텐츠가 메모리로 저장되어 나중에 명령으로 처리될 수 있습니다. 본 연구에서는 이러한 위험을 분석하고, 공격자가 악성 페이로드를 은밀하게 삽입하여 세션을 넘어 지속되도록 만들어 에이전트를 공격자의 꼭두각시로 만드는 '좀비 에이전트' 공격을 정의합니다. 본 연구에서는 공격자가 제어하는 웹 콘텐츠를 통한 간접적인 노출만을 사용하는 블랙박스 공격 프레임워크를 제시합니다. 공격은 두 단계로 구성됩니다. 감염 단계에서는 에이전트가 양성 작업을 수행하는 동안 악성 코드가 포함된 소스 코드를 읽고, 일반적인 업데이트 프로세스를 통해 페이로드를 장기 메모리에 기록합니다. 트리거 단계에서는 페이로드가 검색되거나 유지되어 승인되지 않은 도구 동작을 유발합니다. 본 연구에서는 슬라이딩 윈도우 및 검색 증강 메모리와 같은 일반적인 메모리 구현 방식에 대한 메커니즘별 지속 전략을 설계하여 잘림(truncation) 및 관련성 필터링을 방지합니다. 대표적인 에이전트 구성 및 작업 환경에서 공격을 평가하고, 시간 경과에 따른 지속성과 양성 작업 품질을 유지하면서 승인되지 않은 동작을 유발하는 능력을 측정합니다. 연구 결과는 메모리 진화가 일회성 간접 주입을 지속적인 침해로 이어질 수 있음을 보여주며, 이는 자체 진화형 에이전트에 대해 세션별 프롬프트 필터링에만 초점을 맞춘 방어 체계가 충분하지 않음을 시사합니다.
Self-evolving LLM agents update their internal state across sessions, often by writing and reusing long-term memory. This design improves performance on long-horizon tasks but creates a security risk: untrusted external content observed during a benign session can be stored as memory and later treated as instruction. We study this risk and formalize a persistent attack we call a Zombie Agent, where an attacker covertly implants a payload that survives across sessions, effectively turning the agent into a puppet of the attacker. We present a black-box attack framework that uses only indirect exposure through attacker-controlled web content. The attack has two phases. During infection, the agent reads a poisoned source while completing a benign task and writes the payload into long-term memory through its normal update process. During trigger, the payload is retrieved or carried forward and causes unauthorized tool behavior. We design mechanism-specific persistence strategies for common memory implementations, including sliding-window and retrieval-augmented memory, to resist truncation and relevance filtering. We evaluate the attack on representative agent setups and tasks, measuring both persistence over time and the ability to induce unauthorized actions while preserving benign task quality. Our results show that memory evolution can convert one-time indirect injection into persistent compromise, which suggests that defenses focused only on per-session prompt filtering are not sufficient for self-evolving agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.