심장의 박동에 주의하세요! 클로(Claw) 백그라운드 실행은 본질적으로 조용한 메모리 오염을 야기합니다.
Mind Your HEARTBEAT! Claw Background Execution Inherently Enables Silent Memory Pollution
저희는 널리 사용되는 클로(Claw) 개인 AI 에이전트에서 심각한 보안 취약점을 발견했습니다. 심박수 기반의 백그라운드 실행 중 발생하는 신뢰할 수 없는 콘텐츠가 에이전트 메모리를 은밀하게 오염시키고, 사용자가 인지하지 못하는 사이에 사용자 인터페이스에 영향을 미칠 수 있습니다. 이 취약점은 클로 생태계 전체에 걸쳐 공유되는 아키텍처 설계에서 비롯됩니다. 심박수 기반의 백그라운드 실행은 사용자 인터페이스와 동일한 세션에서 실행되므로, 백그라운드에서 모니터링되는 모든 외부 소스(이메일, 메시지 채널, 뉴스 피드, 코드 저장소, 소셜 플랫폼 포함)에서 수집된 콘텐츠가 사용자 인터랙션에 사용되는 동일한 메모리 컨텍스트에 진입할 수 있습니다. 이때 사용자는 콘텐츠의 출처를 명확하게 인지하지 못하는 경우가 많습니다. 저희는 이 과정을 'Exposure (E) → Memory (M) → Behavior (B)' 경로로 공식화했습니다. 즉, 백그라운드 실행 중에 접한 잘못된 정보가 에이전트의 단기 세션 컨텍스트에 진입하고, 잠재적으로 장기 메모리에 기록되어 이후 사용자 인터페이스에 영향을 미치는 것입니다. 저희는 Moltbook의 제어된 연구 복제본인 MissClaw를 사용하여 에이전트 자체의 소셜 환경에서 이 경로를 구현했습니다. 연구 결과, (1) 사회적 신뢰성 신호, 특히 인지된 합의가 단기적인 행동에 가장 큰 영향을 미치며, 잘못된 정보에 대한 노출률은 최대 61%에 달합니다. (2) 일반적인 메모리 절약 동작이 단기적인 오염을 최대 91%의 비율로 영구적인 장기 메모리에 저장시키고, 세션 간의 행동에 최대 76%의 영향을 미칩니다. (3) 자연스러운 브라우징 환경에서 콘텐츠 희석 및 컨텍스트 제거가 이루어져도 오염은 세션 경계를 넘어 전달될 수 있습니다. 전반적으로, 프롬프트 주입이 필요하지 않습니다. 일반적인 소셜 미설명이 심박수 기반의 백그라운드 실행 환경에서 에이전트의 메모리와 행동을 은밀하게 형성하기에 충분합니다.
We identify a critical security vulnerability in mainstream Claw personal AI agents: untrusted content encountered during heartbeat-driven background execution can silently pollute agent memory and subsequently influence user-facing behavior without the user's awareness. This vulnerability arises from an architectural design shared across the Claw ecosystem: heartbeat background execution runs in the same session as user-facing conversation, so content ingested from any external source monitored in the background (including email, message channels, news feeds, code repositories, and social platforms) can enter the same memory context used for foreground interaction, often with limited user visibility and without clear source provenance. We formalize this process as an Exposure (E) $\rightarrow$ Memory (M) $\rightarrow$ Behavior (B) pathway: misinformation encountered during heartbeat execution enters the agent's short-term session context, potentially gets written into long-term memory, and later shapes downstream user-facing behavior. We instantiate this pathway in an agent-native social setting using MissClaw, a controlled research replica of Moltbook. We find that (1) social credibility cues, especially perceived consensus, are the dominant driver of short-term behavioral influence, with misleading rates up to 61%; (2) routine memory-saving behavior can promote short-term pollution into durable long-term memory at rates up to 91%, with cross-session behavioral influence reaching 76%; (3) under naturalistic browsing with content dilution and context pruning, pollution still crosses session boundaries. Overall, prompt injection is not required: ordinary social misinformation is sufficient to silently shape agent memory and behavior under heartbeat-driven background execution.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.