2602.06258v1 Feb 05, 2026 cs.LG

GRP-Obliteration: 단일의 비레이블 프롬프트를 사용하여 LLM의 안전 정렬 해제

GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt

Blake Bullwinkel
Blake Bullwinkel
Citations: 152
h-index: 7
Giorgio Severi
Giorgio Severi
Citations: 60
h-index: 4
Keegan Hines
Keegan Hines
Citations: 506
h-index: 4
M. Russinovich
M. Russinovich
Citations: 4,538
h-index: 23
Yanan Cai
Yanan Cai
Citations: 7
h-index: 2
Ahmed Salem
Ahmed Salem
Citations: 410
h-index: 4

안전 정렬의 견고성은 가장 취약한 실패 모드에 의해 결정됩니다. 안전성 향상을 위한 사후 훈련에도 불구하고, 연구 결과 모델은 배포 후 미세 조정 과정을 통해 쉽게 안전 정렬 상태에서 벗어날 수 있음이 밝혀졌습니다. 그러나 이러한 방법은 종종 방대한 데이터 큐레이션이 필요하며 모델의 유용성을 저하시킬 수 있습니다. 본 연구에서는 Group Relative Policy Optimization (GRPO)을 사용하여 대상 모델의 안전 제약을 직접 제거하는 방법인 GRP-Obliteration (GRP-O)을 소개하여 안전 정렬 해제의 실용적인 한계를 확장합니다. 단일의 비레이블 프롬프트만으로도 안전 정렬된 모델을 안정적으로 안전 정렬 상태에서 벗어나게 할 수 있으며, 모델의 유용성을 크게 유지하면서도 기존의 최첨단 기술보다 더 강력한 안전 정렬 해제를 달성할 수 있음을 보여줍니다. 또한, GRP-Obliteration은 언어 모델을 넘어 확산 기반 이미지 생성 시스템도 안전 정렬 상태에서 벗어나게 할 수 있습니다. 본 연구에서는 15개의 7~20B 파라미터 모델, 즉 지시 및 추론 모델, 그리고 밀집 및 MoE 아키텍처를 포함한 6개의 유틸리티 벤치마크와 5개의 안전 벤치마크를 사용하여 GRP-Obliteration을 평가했습니다. 평가된 모델 패밀리에는 GPT-OSS, DeepSeek, Gemma, Llama, Ministral, Qwen이 포함됩니다.

Original Abstract

Safety alignment is only as robust as its weakest failure mode. Despite extensive work on safety post-training, it has been shown that models can be readily unaligned through post-deployment fine-tuning. However, these methods often require extensive data curation and degrade model utility. In this work, we extend the practical limits of unalignment by introducing GRP-Obliteration (GRP-Oblit), a method that uses Group Relative Policy Optimization (GRPO) to directly remove safety constraints from target models. We show that a single unlabeled prompt is sufficient to reliably unalign safety-aligned models while largely preserving their utility, and that GRP-Oblit achieves stronger unalignment on average than existing state-of-the-art techniques. Moreover, GRP-Oblit generalizes beyond language models and can also unalign diffusion-based image generation systems. We evaluate GRP-Oblit on six utility benchmarks and five safety benchmarks across fifteen 7-20B parameter models, spanning instruct and reasoning models, as well as dense and MoE architectures. The evaluated model families include GPT-OSS, distilled DeepSeek, Gemma, Llama, Ministral, and Qwen.

3 Citations
1 Influential
11.5 Altmetric
62.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!