2604.11790v1 Apr 13, 2026 cs.CR

ClawGuard: 도구 활용 LLM 에이전트를 위한 런타임 보안 프레임워크 - 간접 프롬프트 주입 공격 방어

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

Zhe Li
Zhe Li
Citations: 118
h-index: 4
Peixin Zhang
Peixin Zhang
Citations: 642
h-index: 10
Jun Sun
Jun Sun
Citations: 39
h-index: 4
Wei Zhao
Wei Zhao
Citations: 206
h-index: 3

도구를 활용한 대규모 언어 모델(LLM) 에이전트는 복잡하고 다단계의 실제 작업을 자동화하는 데 놀라운 능력을 보여주지만, 여전히 간접 프롬프트 주입 공격에 취약합니다. 공격자는 악성 명령을 도구에서 반환된 콘텐츠 내에 삽입하여 에이전트가 이를 신뢰할 수 있는 관찰 데이터로 직접 통합하도록 유도합니다. 이러한 취약점은 웹 및 로컬 콘텐츠 주입, MCP 서버 주입, 그리고 스킬 파일 주입이라는 세 가지 주요 공격 경로를 통해 나타납니다. 이러한 취약점을 해결하기 위해, 우리는 사용자가 확인한 규칙 집합을 모든 도구 호출 경계에서 적용하는 새로운 런타임 보안 프레임워크인 extsc{ClawGuard}를 소개합니다. extsc{ClawGuard}는 신뢰성 기반의 방어 방식을 결정론적이고 감사 가능한 메커니즘으로 전환하여, 실제 효과가 발생하기 전에 악성 도구 호출을 차단합니다. extsc{ClawGuard}는 사용자가 명시한 목표를 기반으로 외부 도구 호출 전에 작업별 접근 제한을 자동으로 파악하여, 모델 수정이나 인프라 변경 없이 세 가지 주입 경로를 모두 차단합니다. AgentDojo, SkillInject, 그리고 MCPSafeBench에서 최첨단 언어 모델 5가지에 대한 실험 결과, extsc{ClawGuard}는 에이전트의 유용성을 손상시키지 않고 간접 프롬프트 주입 공격에 대한 강력한 보호 기능을 제공한다는 것을 보여줍니다. 본 연구는 결정론적인 도구 호출 경계 강제가 안전한 에이전트 AI 시스템을 위한 효과적인 방어 메커니즘이라는 것을 입증하며, 안전 관련 미세 조정이나 아키텍처 수정이 필요하지 않습니다. 코드 및 관련 자료는 다음 링크에서 공개적으로 이용할 수 있습니다: https://github.com/Claw-Guard/ClawGuard.

Original Abstract

Tool-augmented Large Language Model (LLM) agents have demonstrated impressive capabilities in automating complex, multi-step real-world tasks, yet remain vulnerable to indirect prompt injection. Adversaries exploit this weakness by embedding malicious instructions within tool-returned content, which agents directly incorporate into their conversation history as trusted observations. This vulnerability manifests across three primary attack channels: web and local content injection, MCP server injection, and skill file injection. To address these vulnerabilities, we introduce \textsc{ClawGuard}, a novel runtime security framework that enforces a user-confirmed rule set at every tool-call boundary, transforming unreliable alignment-dependent defense into a deterministic, auditable mechanism that intercepts adversarial tool calls before any real-world effect is produced. By automatically deriving task-specific access constraints from the user's stated objective prior to any external tool invocation, \textsc{ClawGuard} blocks all three injection pathways without model modification or infrastructure change. Experiments across five state-of-the-art language models on AgentDojo, SkillInject, and MCPSafeBench demonstrate that \textsc{ClawGuard} achieves robust protection against indirect prompt injection without compromising agent utility. This work establishes deterministic tool-call boundary enforcement as an effective defense mechanism for secure agentic AI systems, requiring neither safety-specific fine-tuning nor architectural modification. Code is publicly available at https://github.com/Claw-Guard/ClawGuard.

1 Citations
0 Influential
38.862943611199 Altmetric
195.3 Score
Original PDF
15

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!