2602.04224v1 Feb 04, 2026 cs.LG

RAPO: 일반화된 안전 추론을 위한 위험 인지 선호도 최적화

RAPO: Risk-Aware Preference Optimization for Generalizable Safe Reasoning

Xingcheng Xu
Xingcheng Xu
Citations: 27
h-index: 4
Qiaosheng Zhang
Qiaosheng Zhang
Citations: 0
h-index: 0
Zeming Wei
Zeming Wei
Citations: 38
h-index: 4
X. Hu
X. Hu
Citations: 1,074
h-index: 4

대규모 추론 모델(LRM)은 연쇄적 사고(CoT) 추론을 통해 놀라운 성공을 거두었지만, 기본적인 언어 모델과 유사한 안전 문제에 직면하기도 합니다. 특히, 안전 추론을 통해 유해한 프롬프트를 거부하도록 설계된 알고리즘은 종종 다양한 복잡한 탈옥 공격에 대한 일반화에 실패합니다. 본 연구에서는 이러한 실패의 원인을 안전 추론 프로세스의 일반화 부족, 특히 복잡한 공격 프롬프트에 대한 불충분함으로 규정합니다. 우리는 이론적 및 실증적 증거를 제시하여, 고급 공격 프롬프트에 대한 방어를 위해서는 더욱 충분한 안전 추론 프로세스가 필요함을 보여줍니다. 이러한 통찰력을 바탕으로, 우리는 LRM이 사고 내용 내에서 적절한 세분성으로 안전 위험을 식별하고 해결하도록 지원하는 위험 인지 선호도 최적화(RAPO) 프레임워크를 제안합니다. 광범위한 실험 결과, RAPO는 다양한 LRM의 안전 추론을 다양한 공격 프롬프트에 걸쳐 성공적으로 일반화하며, 일반적인 유용성을 유지합니다. 이는 LRM 안전을 위한 강력한 정렬 기술에 기여합니다. 저희의 코드는 https://github.com/weizeming/RAPO 에서 확인할 수 있습니다.

Original Abstract

Large Reasoning Models (LRMs) have achieved tremendous success with their chain-of-thought (CoT) reasoning, yet also face safety issues similar to those of basic language models. In particular, while algorithms are designed to guide them to deliberately refuse harmful prompts with safe reasoning, this process often fails to generalize against diverse and complex jailbreak attacks. In this work, we attribute these failures to the generalization of the safe reasoning process, particularly their insufficiency against complex attack prompts. We provide both theoretical and empirical evidence to show the necessity of a more sufficient safe reasoning process to defend against advanced attack prompts. Building on this insight, we propose a Risk-Aware Preference Optimization (RAPO) framework that enables LRM to adaptively identify and address the safety risks with appropriate granularity in its thinking content. Extensive experiments demonstrate that RAPO successfully generalizes multiple LRMs' safe reasoning adaptively across diverse attack prompts whilst preserving general utility, contributing a robust alignment technique for LRM safety. Our code is available at https://github.com/weizeming/RAPO.

0 Citations
0 Influential
30.047189562171 Altmetric
150.2 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!