GRP-Obliteration: 단일의 비레이블 프롬프트를 사용하여 LLM의 안전 정렬 해제
GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt
안전 정렬의 견고성은 가장 취약한 실패 모드에 의해 결정됩니다. 안전성 향상을 위한 사후 훈련에도 불구하고, 연구 결과 모델은 배포 후 미세 조정 과정을 통해 쉽게 안전 정렬 상태에서 벗어날 수 있음이 밝혀졌습니다. 그러나 이러한 방법은 종종 방대한 데이터 큐레이션이 필요하며 모델의 유용성을 저하시킬 수 있습니다. 본 연구에서는 Group Relative Policy Optimization (GRPO)을 사용하여 대상 모델의 안전 제약을 직접 제거하는 방법인 GRP-Obliteration (GRP-O)을 소개하여 안전 정렬 해제의 실용적인 한계를 확장합니다. 단일의 비레이블 프롬프트만으로도 안전 정렬된 모델을 안정적으로 안전 정렬 상태에서 벗어나게 할 수 있으며, 모델의 유용성을 크게 유지하면서도 기존의 최첨단 기술보다 더 강력한 안전 정렬 해제를 달성할 수 있음을 보여줍니다. 또한, GRP-Obliteration은 언어 모델을 넘어 확산 기반 이미지 생성 시스템도 안전 정렬 상태에서 벗어나게 할 수 있습니다. 본 연구에서는 15개의 7~20B 파라미터 모델, 즉 지시 및 추론 모델, 그리고 밀집 및 MoE 아키텍처를 포함한 6개의 유틸리티 벤치마크와 5개의 안전 벤치마크를 사용하여 GRP-Obliteration을 평가했습니다. 평가된 모델 패밀리에는 GPT-OSS, DeepSeek, Gemma, Llama, Ministral, Qwen이 포함됩니다.
Safety alignment is only as robust as its weakest failure mode. Despite extensive work on safety post-training, it has been shown that models can be readily unaligned through post-deployment fine-tuning. However, these methods often require extensive data curation and degrade model utility. In this work, we extend the practical limits of unalignment by introducing GRP-Obliteration (GRP-Oblit), a method that uses Group Relative Policy Optimization (GRPO) to directly remove safety constraints from target models. We show that a single unlabeled prompt is sufficient to reliably unalign safety-aligned models while largely preserving their utility, and that GRP-Oblit achieves stronger unalignment on average than existing state-of-the-art techniques. Moreover, GRP-Oblit generalizes beyond language models and can also unalign diffusion-based image generation systems. We evaluate GRP-Oblit on six utility benchmarks and five safety benchmarks across fifteen 7-20B parameter models, spanning instruct and reasoning models, as well as dense and MoE architectures. The evaluated model families include GPT-OSS, distilled DeepSeek, Gemma, Llama, Ministral, and Qwen.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.