ClawGuard: 도구 활용 LLM 에이전트를 위한 런타임 보안 프레임워크 - 간접 프롬프트 주입 공격 방어
ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection
도구를 활용한 대규모 언어 모델(LLM) 에이전트는 복잡하고 다단계의 실제 작업을 자동화하는 데 놀라운 능력을 보여주지만, 여전히 간접 프롬프트 주입 공격에 취약합니다. 공격자는 악성 명령을 도구에서 반환된 콘텐츠 내에 삽입하여 에이전트가 이를 신뢰할 수 있는 관찰 데이터로 직접 통합하도록 유도합니다. 이러한 취약점은 웹 및 로컬 콘텐츠 주입, MCP 서버 주입, 그리고 스킬 파일 주입이라는 세 가지 주요 공격 경로를 통해 나타납니다. 이러한 취약점을 해결하기 위해, 우리는 사용자가 확인한 규칙 집합을 모든 도구 호출 경계에서 적용하는 새로운 런타임 보안 프레임워크인 extsc{ClawGuard}를 소개합니다. extsc{ClawGuard}는 신뢰성 기반의 방어 방식을 결정론적이고 감사 가능한 메커니즘으로 전환하여, 실제 효과가 발생하기 전에 악성 도구 호출을 차단합니다. extsc{ClawGuard}는 사용자가 명시한 목표를 기반으로 외부 도구 호출 전에 작업별 접근 제한을 자동으로 파악하여, 모델 수정이나 인프라 변경 없이 세 가지 주입 경로를 모두 차단합니다. AgentDojo, SkillInject, 그리고 MCPSafeBench에서 최첨단 언어 모델 5가지에 대한 실험 결과, extsc{ClawGuard}는 에이전트의 유용성을 손상시키지 않고 간접 프롬프트 주입 공격에 대한 강력한 보호 기능을 제공한다는 것을 보여줍니다. 본 연구는 결정론적인 도구 호출 경계 강제가 안전한 에이전트 AI 시스템을 위한 효과적인 방어 메커니즘이라는 것을 입증하며, 안전 관련 미세 조정이나 아키텍처 수정이 필요하지 않습니다. 코드 및 관련 자료는 다음 링크에서 공개적으로 이용할 수 있습니다: https://github.com/Claw-Guard/ClawGuard.
Tool-augmented Large Language Model (LLM) agents have demonstrated impressive capabilities in automating complex, multi-step real-world tasks, yet remain vulnerable to indirect prompt injection. Adversaries exploit this weakness by embedding malicious instructions within tool-returned content, which agents directly incorporate into their conversation history as trusted observations. This vulnerability manifests across three primary attack channels: web and local content injection, MCP server injection, and skill file injection. To address these vulnerabilities, we introduce \textsc{ClawGuard}, a novel runtime security framework that enforces a user-confirmed rule set at every tool-call boundary, transforming unreliable alignment-dependent defense into a deterministic, auditable mechanism that intercepts adversarial tool calls before any real-world effect is produced. By automatically deriving task-specific access constraints from the user's stated objective prior to any external tool invocation, \textsc{ClawGuard} blocks all three injection pathways without model modification or infrastructure change. Experiments across five state-of-the-art language models on AgentDojo, SkillInject, and MCPSafeBench demonstrate that \textsc{ClawGuard} achieves robust protection against indirect prompt injection without compromising agent utility. This work establishes deterministic tool-call boundary enforcement as an effective defense mechanism for secure agentic AI systems, requiring neither safety-specific fine-tuning nor architectural modification. Code is publicly available at https://github.com/Claw-Guard/ClawGuard.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.