최적 수송 이론을 활용한 LLM의 효율적인 거부 제거
Efficient Refusal Ablation in LLM through Optimal Transport
안전성을 고려한 언어 모델은 내부 표현에 내재된 학습된 거부 행동을 통해 유해한 요청을 거부합니다. 최근의 활성화 기반 탈옥 방법은 직교 투영을 적용하여 거부 방향을 제거함으로써 이러한 안전 장치를 우회하지만, 이러한 접근 방식은 거부를 일차원적인 현상으로 간주하고 모델 활성화의 풍부한 분포 구조를 무시합니다. 본 연구에서는 최적 수송 이론에 기반한 체계적인 프레임워크를 제안하며, 이를 통해 유해한 활성화 분포 전체를 무해한 활성화 분포와 일치시킵니다. PCA와 닫힌 형태의 가우시안 최적 수송을 결합하여, 고차원 표현 공간에서 효율적인 계산을 수행하면서 필수적인 기하학적 구조를 유지합니다. 6개의 모델(Llama-2, Llama-3.1, Qwen-2.5; 7B-32B 파라미터)에 대해, 본 방법은 최첨단 기준보다 최대 11% 더 높은 공격 성공률을 달성하면서도 유사한 퍼플렉시티를 유지하여 모델 기능의 우수한 보존을 입증합니다. 중요한 점은, 레이어 선택적 개입(네트워크 깊이의 약 40-60% 지점에 위치한 1-2개의 신중하게 선택된 레이어에 최적 수송을 적용)이 전체 네트워크 개입보다 훨씬 뛰어난 성능을 보인다는 것을 발견했습니다. 이는 거부 메커니즘이 분산되어 있는 것이 아니라 특정 영역에 국한될 수 있음을 시사합니다. 본 연구의 분석은 안전 표현의 기하학적 구조에 대한 새로운 통찰력을 제공하며, 현재의 정렬 방법이 단순한 방향 제거를 넘어 분포 기반 공격에 취약할 수 있음을 제안합니다.
Safety-aligned language models refuse harmful requests through learned refusal behaviors encoded in their internal representations. Recent activation-based jailbreaking methods circumvent these safety mechanisms by applying orthogonal projections to remove refusal directions, but these approaches treat refusal as a one-dimensional phenomenon and ignore the rich distributional structure of model activations. We introduce a principled framework based on optimal transport theory that transforms the entire distribution of harmful activations to match harmless ones. By combining PCA with closed-form Gaussian optimal transport, we achieve efficient computation in high-dimensional representation spaces while preserving essential geometric structure. Across six models (Llama-2, Llama-3.1, Qwen-2.5; 7B-32B parameters), our method achieves up to 11% higher attack success rates than state-of-the-art baselines while maintaining comparable perplexity, demonstrating superior preservation of model capabilities. Critically, we discover that layer-selective intervention (applying optimal transport to 1-2 carefully chosen layers at approximately 40-60% network depth) substantially outperforms full-network interventions, revealing that refusal mechanisms may be localized rather than distributed. Our analysis provides new insights into the geometric structure of safety representations and suggests that current alignment methods may be vulnerable to distributional attacks beyond simple direction removal.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.