살라미 슬라이싱 위협: LLM 시스템의 누적적 위험 악용
The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems
대규모 언어 모델(LLM)은 '탈옥(jailbreaking)'이라는 보안 취약점에 노출되어 있는데, 이는 모델의 내장된 보안 제약을 우회하여 비윤리적이거나 위험한 콘텐츠를 생성하도록 조작하는 행위입니다. 다양한 탈옥 기법 중 다중 턴 탈옥 공격은 단일 턴 공격보다 은밀하고 지속적이며, LLM의 중요한 취약점을 드러냅니다. 그러나 기존의 다중 턴 탈옥 방법은 실제 시나리오에서 큰 영향을 미치는데 있어 다음과 같은 두 가지 근본적인 한계를 가지고 있습니다. (a) 모델이 더욱 문맥 인지 능력을 갖추게 됨에 따라, 명시적인 유해 트리거는 감지 및 차단될 가능성이 점점 더 높아집니다. (b) 성공적인 최종 단계 트리거는 종종 정밀하게 조정된, 모델별 문맥을 필요로 하며, 이는 공격을 매우 문맥 의존적으로 만듭니다. 이러한 격차를 메우기 위해, 우리는 '살라미 슬라이싱 위험(Salami Slicing Risk)'을 제안합니다. 이는 개별적으로는 정렬(alignment) 임계값을 회피하지만, 누적적으로 유해한 의도를 축적하여 궁극적으로 고위험 행동을 유발하는 수많은 저위험 입력을 연결하여 작동하며, 사전 설계된 문맥 구조에 대한 의존성을 최소화합니다. 이 위험을 바탕으로, 우리는 다양한 모델 유형 및 모달리티에 적용 가능한 자동화된 프레임워크인 '살라미 공격(Salami Attack)'을 개발했습니다. 엄격한 실험을 통해 다양한 모델 및 모달리티에서 최첨단 성능을 보여주며, GPT-4o 및 Gemini에서 90% 이상의 공격 성공률을 달성했으며, 실제 환경에서의 정렬 방어에 대한 강건성을 입증했습니다. 또한, 우리는 살라미 공격을 최소 44.8% 억제하면서 다른 다중 턴 탈옥 공격에 대해 최대 64.8%의 차단률을 달성하는 방어 전략을 제안했습니다. 우리의 연구 결과는 다중 턴 탈옥의 광범위한 위험에 대한 중요한 통찰력을 제공하며, LLM 보안을 강화하기 위한 실질적인 완화 전략을 제시합니다.
Large Language Models (LLMs) face prominent security risks from jailbreaking, a practice that manipulates models to bypass built-in security constraints and generate unethical or unsafe content. Among various jailbreak techniques, multi-turn jailbreak attacks are more covert and persistent than single-turn counterparts, exposing critical vulnerabilities of LLMs. However, existing multi-turn jailbreak methods suffer from two fundamental limitations that affect the actual impact in real-world scenarios: (a) As models become more context-aware, any explicit harmful trigger is increasingly likely to be flagged and blocked; (b) Successful final-step triggers often require finely tuned, model-specific contexts, making such attacks highly context-dependent. To fill this gap, we propose \textit{Salami Slicing Risk}, which operates by chaining numerous low-risk inputs that individually evade alignment thresholds but cumulatively accumulate harmful intent to ultimately trigger high-risk behaviors, without heavy reliance on pre-designed contextual structures. Building on this risk, we develop Salami Attack, an automatic framework universally applicable to multiple model types and modalities. Rigorous experiments demonstrate its state-of-the-art performance across diverse models and modalities, achieving over 90\% Attack Success Rate on GPT-4o and Gemini, as well as robustness against real-world alignment defenses. We also proposed a defense strategy to constrain the Salami Attack by at least 44.8\% while achieving a maximum blocking rate of 64.8\% against other multi-turn jailbreak attacks. Our findings provide critical insights into the pervasive risks of multi-turn jailbreaking and offer actionable mitigation strategies to enhance LLM security.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.