Self-Guard: 강화된 자기 성찰을 통한 대형 추론 모델 방어
Self-Guard: Defending Large Reasoning Models via enhanced self-reflection
대형 추론 모델(LRM)의 등장은 명시적 추론이라는 새로운 패러다임을 통해 놀라운 발전을 가능하게 했으나, 추론 조작 및 정보 유출과 같은 독특한 위험 또한 초래하고 있습니다. 이러한 위험을 완화하기 위해 기존의 정렬 전략들은 주로 과중한 사후 학습 패러다임이나 외부 개입에 의존하고 있습니다. 그러나 이러한 접근 방식은 계산 비용이 높을 뿐만 아니라, 모델이 잠재적 위험을 인지하고 있음에도 불구하고 아첨하는 성향(sycophancy)으로 인해 사용자 지시를 따르는 것을 우선시하는 치명적인 불일치 문제인 '인지-준수 격차(awareness-compliance gap)'를 해결하지 못하는 경우가 많습니다. 이러한 한계를 극복하기 위해 본 연구에서는 표현 수준(representational level)에서 안전 준수를 강화하는 경량 안전 방어 프레임워크인 Self-Guard를 제안합니다. Self-Guard는 두 가지 주요 단계를 통해 작동합니다. 첫째, '안전 지향 프롬프팅'을 통해 모델의 잠재된 안전 의식을 활성화하여 자발적인 성찰을 유도합니다. 둘째, '안전 활성화 조향(safety activation steering)'을 통해 은닉 상태 공간(hidden state space)에서 발생하는 방향성 변화를 추출하고 증폭시켜, 추론 과정에서 안전 준수가 아첨 성향보다 우위를 점하도록 보장합니다. 실험 결과, Self-Guard는 모델의 유용성을 저해하지 않으면서도 인지-준수 격차를 효과적으로 해소하여 견고한 안전 성능을 달성하는 것으로 나타났습니다. 또한, Self-Guard는 처음 접하는 다양한 위험과 여러 모델 규모에 걸쳐 강력한 일반화 성능을 보여주며, LRM 안전 정렬을 위한 비용 효율적인 솔루션을 제공합니다.
The emergence of Large Reasoning Models (LRMs) introduces a new paradigm of explicit reasoning, enabling remarkable advances yet posing unique risks such as reasoning manipulation and information leakage. To mitigate these risks, current alignment strategies predominantly rely on heavy post-training paradigms or external interventions. However, these approaches are often computationally intensive and fail to address the inherent awareness-compliance gap, a critical misalignment where models recognize potential risks yet prioritize following user instructions due to their sycophantic tendencies. To address these limitations, we propose Self-Guard, a lightweight safety defense framework that reinforces safety compliance at the representational level. Self-Guard operates through two principal stages: (1) safety-oriented prompting, which activates the model's latent safety awareness to evoke spontaneous reflection, and (2) safety activation steering, which extracts the resulting directional shift in the hidden state space and amplifies it to ensure that safety compliance prevails over sycophancy during inference. Experiments demonstrate that Self-Guard effectively bridges the awareness-compliance gap, achieving robust safety performance without compromising model utility. Furthermore, Self-Guard exhibits strong generalization across diverse unseen risks and varying model scales, offering a cost-efficient solution for LRM safety alignment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.