2602.20708v1 Feb 24, 2026 cs.AI

ICON: 추론 시간 교정을 통한 에이전트 기반 간접 프롬프트 주입 방어

ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction

Che Wang
Che Wang
Citations: 8
h-index: 2
Jiaming Zhang
Jiaming Zhang
Citations: 9
h-index: 2
Ziqi Zhang
Ziqi Zhang
Citations: 30
h-index: 2
Wei Yang Bryan Lim
Wei Yang Bryan Lim
Citations: 51
h-index: 3
Fuyao Zhang
Fuyao Zhang
Citations: 2
h-index: 1
Longtao Huang
Longtao Huang
Citations: 16
h-index: 3
Yinghui Wang
Yinghui Wang
Citations: 115
h-index: 3
Jianbo Gao
Jianbo Gao
Citations: 423
h-index: 11
Zhong Chen
Zhong Chen
Citations: 134
h-index: 6

대규모 언어 모델(LLM) 에이전트는 검색된 콘텐츠에 포함된 악의적인 지침에 의해 에이전트의 실행 흐름이 탈취되는 간접 프롬프트 주입(IPI) 공격에 취약합니다. 기존의 방어 방법은 일반적으로 엄격한 필터링 또는 거부 메커니즘에 의존하며, 이는 중요한 한계를 가지고 있습니다. 즉, 정당한 에이전트 워크플로우를 조기에 종료시키는 과도한 거부(over-refusal) 현상이 발생할 수 있습니다. 본 연구에서는 공격을 무력화하면서도 작업 연속성을 유지하는 프레임워크인 ICON을 제안합니다. 핵심적인 아이디어는 IPI 공격이 잠재 공간에서 뚜렷한 과도한 집중(over-focusing) 패턴을 남긴다는 것입니다. 우리는 높은 강도 점수를 기반으로 공격을 탐지하는 잠재 공간 추적 탐지기(Latent Space Trace Prober)를 도입했습니다. 그 후, 완화 정류기(Mitigating Rectifier)는 LLM의 기능적 경로를 복원하기 위해 적대적인 쿼리 키 의존성을 선택적으로 조작하면서 작업과 관련된 요소를 증폭시키는 정교한 주의력 조절을 수행합니다. 다양한 백본 모델에 대한 광범위한 실험 결과, ICON은 상용 수준의 탐지기에 필적하는 0.4%의 낮은 오탐(ASR) 비율을 달성했으며, 작업 유용성이 50% 이상 향상되었습니다. 또한, ICON은 강력한 Out of Distribution(OOD) 일반화 능력을 보여주며, 멀티모달 에이전트로 효과적으로 확장되어 보안과 효율성 간의 우수한 균형을 제공합니다.

Original Abstract

Large Language Model (LLM) agents are susceptible to Indirect Prompt Injection (IPI) attacks, where malicious instructions in retrieved content hijack the agent's execution. Existing defenses typically rely on strict filtering or refusal mechanisms, which suffer from a critical limitation: over-refusal, prematurely terminating valid agentic workflows. We propose ICON, a probing-to-mitigation framework that neutralizes attacks while preserving task continuity. Our key insight is that IPI attacks leave distinct over-focusing signatures in the latent space. We introduce a Latent Space Trace Prober to detect attacks based on high intensity scores. Subsequently, a Mitigating Rectifier performs surgical attention steering that selectively manipulate adversarial query key dependencies while amplifying task relevant elements to restore the LLM's functional trajectory. Extensive evaluations on multiple backbones show that ICON achieves a competitive 0.4% ASR, matching commercial grade detectors, while yielding a over 50% task utility gain. Furthermore, ICON demonstrates robust Out of Distribution(OOD) generalization and extends effectively to multi-modal agents, establishing a superior balance between security and efficiency.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!