대규모 추론 모델에서 분포 기반 정제를 통한 안전성 대가 완화
Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models
안전성 정렬(Safety alignment)은 대규모 추론 모델(LRM)의 일반적인 추론 능력을 저해하는 안전성 대가(safety tax)를 발생시킵니다. 기존의 LRM 안전성 정렬에 사용되는 데이터셋은 보통 외부 LRM이나 인간 레이블러로부터 안전성 추론 과정과 답변을 지식 증류하여 구축됩니다. 그러나 이러한 추론 과정과 답변은 정렬이 필요한 타겟 LRM과 분포적 차이(distributional gap)를 보이며, 우리는 이러한 분포적 차이가 타겟 LRM의 추론 능력에 중대한 저하를 일으키는 주범이라고 추측합니다. 이러한 가설에 기반하여, 우리는 DGR이라고 명명된 안전성 정렬 데이터셋 구축 방법을 제안합니다. DGR은 기존의 분포 외(out-of-distributional) 안전성 추론 데이터셋을 변형 및 정제하여 타겟 LLM의 내부 분포와 정렬되도록 만듭니다. 실험 결과는 다음을 입증합니다. i) DGR은 모든 베이스라인에서 안전성 성능을 유지하면서도 안전성 대가를 효과적으로 완화합니다. 즉, Vanilla SFT와 비교하여 평균 추론 정확도에서 DirectRefusal은 +30.2%, R1-ACT는 +21.2% 향상을 달성했습니다. ii) 추론 능력 저하의 정도는 분포 이동의 범위와 상관관계가 있으며, 이는 이 격차를 해소하는 것이 성능 보존의 핵심임을 시사합니다. 더 나아가, 우리는 단 10개의 샘플만으로도 효과적인 거부 행동을 활성화하기에 충분하다는 점을 통해, LRM의 안전성 정렬이 잠재된 지식을 활성화하는 메커니즘으로서 주로 기능할 수 있음을 발견했습니다. 이러한 발견은 분포적 일관성의 중요성을 강조할 뿐만 아니라 추론 모델의 안전성 활성화 메커니즘에 대한 통찰력을 제공합니다.
Safety alignment incurs safety tax that perturbs a large reasoning model's (LRM) general reasoning ability. Existing datasets used for safety alignment for an LRM are usually constructed by distilling safety reasoning traces and answers from an external LRM or human labeler. However, such reasoning traces and answers exhibit a distributional gap with the target LRM that needs alignment, and we conjecture such distributional gap is the culprit leading to significant degradation of reasoning ability of the target LRM. Driven by this hypothesis, we propose a safety alignment dataset construction method, dubbed DGR. DGR transforms and refines an existing out-of-distributional safety reasoning dataset to be aligned with the target's LLM inner distribution. Experimental results demonstrate that i) DGR effectively mitigates the safety tax while maintaining safety performance across all baselines, i.e., achieving \textbf{+30.2\%} on DirectRefusal and \textbf{+21.2\%} on R1-ACT improvement in average reasoning accuracy compared to Vanilla SFT; ii) the degree of reasoning degradation correlates with the extent of distribution shift, suggesting that bridging this gap is central to preserving capabilities. Furthermore, we find that safety alignment in LRMs may primarily function as a mechanism to activate latent knowledge, as a mere \textbf{10} samples are sufficient for activating effective refusal behaviors. These findings not only emphasize the importance of distributional consistency but also provide insights into the activation mechanism of safety in reasoning models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.