2604.10717v1 Apr 12, 2026 cs.CR

듀얼 패스 런타임 무결성 게임을 통한 RAG 추출 공격 탐지

Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game

Zhihan Liu
Zhihan Liu
Citations: 399
h-index: 11
Yuanbo Xie
Yuanbo Xie
Institute of Information Engineering, Chinese Academy of Sciences
Citations: 14
h-index: 2
Xiaokun Chen
Xiaokun Chen
Citations: 100
h-index: 3
Tingwen Liu
Tingwen Liu
Citations: 23
h-index: 2
Yingjie Zhang
Yingjie Zhang
Citations: 124
h-index: 2
Yulin Li
Yulin Li
Citations: 11
h-index: 1
Shouyou Song
Shouyou Song
Citations: 3
h-index: 1
Liya Su
Liya Su
Citations: 267
h-index: 8

Retrieval-Augmented Generation (RAG) 시스템은 대규모 언어 모델에 외부 지식을 추가하지만, 중요한 보안 취약점을 야기합니다. 바로 RAG 지식 베이스 유출 공격(RAG Knowledge Base Leakage)으로, 적대적인 프롬프트를 통해 모델이 검색된 독점 콘텐츠를 유출하도록 유도할 수 있습니다. 최근 연구에 따르면 이러한 유출은 적응적이고 반복적인 공격 전략(RAG 추출 공격)을 통해 수행될 수 있으며, 효과적인 대응책은 현저히 부족한 실정입니다. 이러한 격차를 해소하기 위해, 우리는 소프트웨어 보안의 스택 캐너리에서 영감을 받은 실시간 방어 메커니즘인 CanaryRAG을 제안합니다. CanaryRAG은 신중하게 설계된 캐너리 토큰을 검색된 데이터 조각에 삽입하고, RAG 추출 방어를 듀얼 패스 런타임 무결성 게임으로 재구성합니다. 대상 경로 또는 오라클 경로가 예상되는 캐너리 동작을 위반하는 경우, 적응적 억제 및 난독화 시도에도 불구하고 유출을 실시간으로 탐지합니다. 기존 공격에 대한 광범위한 평가 결과, CanaryRAG은 강력한 방어 기능을 제공하며, 최첨단 기준 모델보다 훨씬 낮은 데이터 조각 복구율을 달성하면서도 작업 성능 및 추론 지연에 미치는 영향은 미미합니다. 또한, CanaryRAG은 플러그 앤 플레이 방식으로 설계되어, 재훈련이나 구조적 수정 없이 임의의 RAG 파이프라인에 원활하게 통합될 수 있으며, 독점 데이터를 위한 실용적이고 확장 가능한 보안 솔루션을 제공합니다.

Original Abstract

Retrieval-Augmented Generation (RAG) systems augment large language models with external knowledge, yet introduce a critical security vulnerability: RAG Knowledge Base Leakage, wherein adversarial prompts can induce the model to divulge retrieved proprietary content. Recent studies reveal that such leakage can be executed through adaptive and iterative attack strategies (named RAG extraction attack), while effective countermeasures remain notably lacking. To bridge this gap, we propose CanaryRAG, a runtime defense mechanism inspired by stack canaries in software security. CanaryRAG embeds carefully designed canary tokens into retrieved chunks and reformulates RAG extraction defense as a dual-path runtime integrity game. Leakage is detected in real time whenever either the target or oracle path violates its expected canary behavior, including under adaptive suppression and obfuscation. Extensive evaluations against existing attacks demonstrate that CanaryRAG provides robust defense, achieving substantially lower chunk recovery rates than state-of-the-art baselines while imposing negligible impact on task performance and inference latency. Moreover, as a plug-and-play solution, CanaryRAG can be seamlessly integrated into arbitrary RAG pipelines without requiring retraining or structural modifications, offering a practical and scalable safeguard for proprietary data.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!