적을 알라: 다양한 데이터 합성 및 명령어 수준의 생각의 사슬(Chain-of-Thought) 학습을 통한 프롬프트 인젝션 공격으로부터의 LLM 보호
Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning
대규모 언어 모델(LLM)이 통합된 애플리케이션이 점점 더 널리 보급되고 있지만, 프롬프트 인젝션(PI) 공격으로 인한 치명적인 보안 취약점에 직면해 있습니다. PI 공격에 대한 방어는 두 가지 주요 문제에 직면해 있습니다. 첫째, 악성 명령어가 다양한 경로를 통해 주입될 수 있다는 점, 둘째, 주입된 명령어가 주변 문맥과 명확한 의미적 경계가 없어 식별하기 어렵다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 다양한 훈련 데이터를 합성하고 명령어 수준의 생각의 사슬(Chain-of-Thought) 미세 조정을 사용하는 PI 방어 모델 강화 방법인 InstruCoT를 제안합니다. 이를 통해 LLM은 문맥 내 출처나 위치에 관계없이 악성 명령어를 효과적으로 식별하고 거부할 수 있게 됩니다. 우리는 행동 편차, 개인정보 유출, 유해한 출력의 세 가지 중요한 차원에서 InstruCoT를 평가했습니다. 4가지 LLM에 대한 실험 결과, InstruCoT는 유용성(utility) 성능의 저하 없이 모든 차원에서 기준 모델(baseline)보다 월등히 뛰어난 성능을 입증했습니다.
Large language model (LLM)-integrated applications have become increasingly prevalent, yet face critical security vulnerabilities from prompt injection (PI) attacks. Defending against PI attacks faces two major issues: malicious instructions can be injected through diverse vectors, and injected instructions often lack clear semantic boundaries from the surrounding context, making them difficult to identify. To address these issues, we propose InstruCoT, a model enhancement method for PI defense that synthesizes diverse training data and employs instruction-level chain-of-thought fine-tuning, enabling LLMs to effectively identify and reject malicious instructions regardless of their source or position in the context. We evaluate InstruCoT across three critical dimensions: Behavior Deviation, Privacy Leakage, and Harmful Output. Experimental results across four LLMs demonstrate that InstruCoT significantly outperforms baselines in all dimensions while maintaining utility performance without degradation
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.