듀얼 패스 런타임 무결성 게임을 통한 RAG 추출 공격 탐지
Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game
Retrieval-Augmented Generation (RAG) 시스템은 대규모 언어 모델에 외부 지식을 추가하지만, 중요한 보안 취약점을 야기합니다. 바로 RAG 지식 베이스 유출 공격(RAG Knowledge Base Leakage)으로, 적대적인 프롬프트를 통해 모델이 검색된 독점 콘텐츠를 유출하도록 유도할 수 있습니다. 최근 연구에 따르면 이러한 유출은 적응적이고 반복적인 공격 전략(RAG 추출 공격)을 통해 수행될 수 있으며, 효과적인 대응책은 현저히 부족한 실정입니다. 이러한 격차를 해소하기 위해, 우리는 소프트웨어 보안의 스택 캐너리에서 영감을 받은 실시간 방어 메커니즘인 CanaryRAG을 제안합니다. CanaryRAG은 신중하게 설계된 캐너리 토큰을 검색된 데이터 조각에 삽입하고, RAG 추출 방어를 듀얼 패스 런타임 무결성 게임으로 재구성합니다. 대상 경로 또는 오라클 경로가 예상되는 캐너리 동작을 위반하는 경우, 적응적 억제 및 난독화 시도에도 불구하고 유출을 실시간으로 탐지합니다. 기존 공격에 대한 광범위한 평가 결과, CanaryRAG은 강력한 방어 기능을 제공하며, 최첨단 기준 모델보다 훨씬 낮은 데이터 조각 복구율을 달성하면서도 작업 성능 및 추론 지연에 미치는 영향은 미미합니다. 또한, CanaryRAG은 플러그 앤 플레이 방식으로 설계되어, 재훈련이나 구조적 수정 없이 임의의 RAG 파이프라인에 원활하게 통합될 수 있으며, 독점 데이터를 위한 실용적이고 확장 가능한 보안 솔루션을 제공합니다.
Retrieval-Augmented Generation (RAG) systems augment large language models with external knowledge, yet introduce a critical security vulnerability: RAG Knowledge Base Leakage, wherein adversarial prompts can induce the model to divulge retrieved proprietary content. Recent studies reveal that such leakage can be executed through adaptive and iterative attack strategies (named RAG extraction attack), while effective countermeasures remain notably lacking. To bridge this gap, we propose CanaryRAG, a runtime defense mechanism inspired by stack canaries in software security. CanaryRAG embeds carefully designed canary tokens into retrieved chunks and reformulates RAG extraction defense as a dual-path runtime integrity game. Leakage is detected in real time whenever either the target or oracle path violates its expected canary behavior, including under adaptive suppression and obfuscation. Extensive evaluations against existing attacks demonstrate that CanaryRAG provides robust defense, achieving substantially lower chunk recovery rates than state-of-the-art baselines while imposing negligible impact on task performance and inference latency. Moreover, as a plug-and-play solution, CanaryRAG can be seamlessly integrated into arbitrary RAG pipelines without requiring retraining or structural modifications, offering a practical and scalable safeguard for proprietary data.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.