JPU: 온-정책 경로 수정(Path Rectification)을 통한 탈옥 방어 및 학습 제거 기술 연계
JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification
대규모 언어 모델(LLM)은 광범위한 안전 정렬 노력을 기울였음에도 불구하고, 여전히 탈옥 공격에 취약합니다. 학습 제거 기술은 특정 유해한 파라미터를 제거하여 방어책으로 떠오르고 있지만, 현재의 방법들은 다양한 탈옥 시도에 여전히 취약합니다. 본 연구에서는 실험적 분석을 통해 이러한 실패 원인이 탈옥 공격이 주로 중간 레이어에서 제거되지 않은 파라미터를 활성화시키기 때문임을 밝혀냈습니다. 또한, 이러한 회피된 파라미터들이 금지된 출력으로 재구성되는 근본적인 메커니즘을 조사하여, 동적인 탈옥 경로가 지속적으로 존재하며, 이러한 경로를 수정할 수 없다는 점이 기존 학습 제거 방어 기술의 근본적인 한계임을 확인했습니다. 이러한 한계를 극복하기 위해, 본 연구에서는 동적인 탈옥 경로를 안전 지점으로 수정하는 최초의 방법인 탈옥 경로 학습 제거 기술(Jailbreak Path Unlearning, JPU)을 제안합니다. JPU는 모델의 취약점을 노출하고 탈옥 경로를 식별하기 위해 동적으로 온-정책 적대적 샘플을 탐색합니다. 광범위한 실험 결과, JPU는 모델의 유용성을 유지하면서 동적 공격에 대한 탈옥 저항성을 크게 향상시키는 것을 보여줍니다.
Despite extensive safety alignment, Large Language Models (LLMs) often fail against jailbreak attacks. While machine unlearning has emerged as a promising defense by erasing specific harmful parameters, current methods remain vulnerable to diverse jailbreaks. We first conduct an empirical study and discover that this failure mechanism is caused by jailbreaks primarily activating non-erased parameters in the intermediate layers. Further, by probing the underlying mechanism through which these circumvented parameters reassemble into the prohibited output, we verify the persistent existence of dynamic $\textbf{jailbreak paths}$ and show that the inability to rectify them constitutes the fundamental gap in existing unlearning defenses. To bridge this gap, we propose $\textbf{J}$ailbreak $\textbf{P}$ath $\textbf{U}$nlearning (JPU), which is the first to rectify dynamic jailbreak paths towards safety anchors by dynamically mining on-policy adversarial samples to expose vulnerabilities and identify jailbreak paths. Extensive experiments demonstrate that JPU significantly enhances jailbreak resistance against dynamic attacks while preserving the model's utility.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.