2603.25164v1 Mar 26, 2026 cs.CR

PIDP-Attack: 프롬프트 주입과 데이터베이스 오염 공격을 결합한 검색 증강 생성 시스템 공격 기법

PIDP-Attack: Combining Prompt Injection with Database Poisoning Attacks on Retrieval-Augmented Generation Systems

Haozheng Wang
Haozheng Wang
Citations: 45
h-index: 4
Haoyue Liu
Haoyue Liu
Citations: 3
h-index: 1
Jionghao Zhu
Jionghao Zhu
Citations: 11
h-index: 2
Zhichao Wang
Zhichao Wang
Citations: 50
h-index: 4
Xiaoying Tang
Xiaoying Tang
Citations: 492
h-index: 9
Yongxin Guo
Yongxin Guo
Citations: 358
h-index: 8

대규모 언어 모델(LLM)은 다양한 응용 분야에서 뛰어난 성능을 보여주었지만, 실제 적용에는 오래된 지식, 환각 현상 발생 경향 등의 문제가 있습니다. 이러한 한계를 극복하기 위해 외부의 최신 지식 소스를 활용하는 검색 증강 생성(RAG) 시스템이 도입되었습니다. 그러나 RAG 시스템은 여전히 적대적 공격에 취약하며, 특히 데이터 오염 공격이 큰 위협으로 부상하고 있습니다. 기존의 오염 기반 공격은 일반적으로 사용자의 특정 쿼리에 대한 사전 지식을 필요로 하여, 유연성이 떨어지고 실제 적용에 제한이 있습니다. 본 연구에서는 프롬프트 주입과 데이터베이스 오염을 결합한 새로운 복합 공격 기법인 PIDP-Attack을 제안합니다. PIDP-Attack은 추론 시 쿼리에 악성 문자를 추가하고, 검색 데이터베이스에 제한된 수의 오염된 문서를 삽입하여 사용자의 실제 쿼리에 대한 사전 지식 없이도 LLM의 응답을 임의로 조작할 수 있습니다. 세 개의 벤치마크 데이터셋(Natural Questions, HotpotQA, MS-MARCO)과 여덟 개의 LLM을 사용한 실험 결과, PIDP-Attack은 기존의 PoisonedRAG 공격 기법보다 우수한 성능을 보였습니다. 특히, 개방형 질의 응답(QA) 작업에서 공격 성공률을 4%에서 16%까지 향상시키면서도 높은 검색 정확도를 유지하여, 복합 공격 전략이 필요하며 효과적임을 입증했습니다.

Original Abstract

Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of applications. However, their practical deployment is often hindered by issues such as outdated knowledge and the tendency to generate hallucinations. To address these limitations, Retrieval-Augmented Generation (RAG) systems have been introduced, enhancing LLMs with external, up-to-date knowledge sources. Despite their advantages, RAG systems remain vulnerable to adversarial attacks, with data poisoning emerging as a prominent threat. Existing poisoning-based attacks typically require prior knowledge of the user's specific queries, limiting their flexibility and real-world applicability. In this work, we propose PIDP-Attack, a novel compound attack that integrates prompt injection with database poisoning in RAG. By appending malicious characters to queries at inference time and injecting a limited number of poisoned passages into the retrieval database, our method can effectively manipulate LLM response to arbitrary query without prior knowledge of the user's actual query. Experimental evaluations across three benchmark datasets (Natural Questions, HotpotQA, MS-MARCO) and eight LLMs demonstrate that PIDP-Attack consistently outperforms the original PoisonedRAG. Specifically, our method improves attack success rates by 4% to 16% on open-domain QA tasks while maintaining high retrieval precision, proving that the compound attack strategy is both necessary and highly effective.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!