체인-오브-쏘트 생성 전에 안전 의사 결정을 촉진하여 더 안전한 대규모 추론 모델 개발 연구
Towards Safer Large Reasoning Models by Promoting Safety Decision-Making before Chain-of-Thought Generation
대규모 추론 모델(LRM)은 체인-오브-쏘트(CoT) 방식을 통해 뛰어난 성능을 달성했지만, 최근 연구에 따르면 이러한 향상된 추론 능력은 안전 기능의 현저한 저하를 초래하는 것으로 나타났습니다. 본 논문에서는 LRM의 안전 기능 저하가 CoT 활성화 이후에만 발생하며, CoT 비활성화 시에는 이러한 저하가 관찰되지 않는다는 것을 밝히고 있습니다. 이러한 관찰을 바탕으로, LRM이 CoT 생성을 시작하기 전에 안전 의사 결정을 하도록 유도하는 것을 고려했습니다. 이를 위해, 본 연구에서는 LRM이 CoT 생성을 시작하기 전에 안전 의사 결정을 촉진하는 새로운 안전 정렬 방법을 제안합니다. 구체적으로, 먼저 BERT 기반 분류기를 사용하여 안전 모델(예: CoT 비활성화된 LRM)로부터 안전 의사 결정 신호를 추출하고, 이러한 신호를 LRM의 안전 정렬 과정에서 보조적인 지도 신호로 통합합니다. 이를 통해 안전 관련 기울기를 LRM의 잠재 표현으로 역전파하여 LRM의 안전 의사 결정 능력을 강화하고, CoT 생성에 대한 안전성을 향상시킬 수 있습니다. 광범위한 실험 결과는 제안하는 방법이 LRM의 안전 기능을 크게 향상시키면서 LRM의 일반적인 추론 성능을 효과적으로 유지한다는 것을 보여줍니다.
Large reasoning models (LRMs) achieved remarkable performance via chain-of-thought (CoT), but recent studies showed that such enhanced reasoning capabilities are at the expense of significantly degraded safety capabilities. In this paper, we reveal that LRMs' safety degradation occurs only after CoT is enabled, and this degradation is not observed when CoT is disabled. This observation motivates us to consider encouraging LRMs to make safety decisions before CoT generation. To this end, we propose a novel safety alignment method that promotes the safety decision-making of LRMs before starting CoT generation. Specifically, we first utilize a Bert-based classifier to extract safety decision signals from a safe model (e.g., a CoT-disabled LRM) and then integrate these signals into LRMs' safety alignment as auxiliary supervision. In this way, the safety gradients can be backpropagated to the LRMs' latent representations, effectively strengthening the LRMs' safety decision-making abilities against CoT generation. Extensive experiments demonstrate that our method substantially improves the safety capabilities of LRMs while effectively maintaining LRMs' general reasoning performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.