VIGIL: 검증 전 커밋 방식을 통한 LLM 에이전트의 도구 스트림 주입 공격 방어
VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit
개방형 환경에서 작동하는 LLM 에이전트는 간접적인 프롬프트 주입 공격에 점점 더 취약해지고 있으며, 특히 조작된 메타데이터와 런타임 피드백을 통해 실행 흐름을 탈취하는 도구 스트림 내에서 이러한 위험이 심각합니다. 기존의 방어 기법들은 고급 모델이 엄격한 정렬 때문에 주입된 규칙을 우선시하는 동시에, 적응적 추론에 필요한 피드백 루프를 단절시키는 정적 보호 메커니즘이 존재한다는 중요한 딜레마에 직면합니다. 이러한 갈등을 해결하기 위해, 우리는 제한적인 격리에서 벗어나 '검증 전 커밋' 프로토콜을 적용하는 프레임워크인 **VIGIL**을 제안합니다. **VIGIL**은 추론의 유연성을 유지하면서도 의도 기반 검증을 통해 안전성을 확보함으로써, 추론 가설을 예측적으로 생성하고 안전을 강화합니다. 또한, 동적인 의존성을 특징으로 하는 광범위한 위협을 시뮬레이션하도록 설계된 959개의 도구 스트림 주입 사례로 구성된 벤치마크인 **SIREN**을 소개합니다. 광범위한 실험 결과, **VIGIL**은 최첨단 동적 방어 기법보다 공격 성공률을 22% 이상 감소시키고, 정적 기준보다 공격 상황에서 유용성을 2배 이상 향상시켜 보안과 유용성 간의 최적의 균형을 달성하는 것으로 나타났습니다.
LLM agents operating in open environments face escalating risks from indirect prompt injection, particularly within the tool stream where manipulated metadata and runtime feedback hijack execution flow. Existing defenses encounter a critical dilemma as advanced models prioritize injected rules due to strict alignment while static protection mechanisms sever the feedback loop required for adaptive reasoning. To reconcile this conflict, we propose \textbf{VIGIL}, a framework that shifts the paradigm from restrictive isolation to a verify-before-commit protocol. By facilitating speculative hypothesis generation and enforcing safety through intent-grounded verification, \textbf{VIGIL} preserves reasoning flexibility while ensuring robust control. We further introduce \textbf{SIREN}, a benchmark comprising 959 tool stream injection cases designed to simulate pervasive threats characterized by dynamic dependencies. Extensive experiments demonstrate that \textbf{VIGIL} outperforms state-of-the-art dynamic defenses by reducing the attack success rate by over 22\% while more than doubling the utility under attack compared to static baselines, thereby achieving an optimal balance between security and utility.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.