2603.22829v1 Mar 24, 2026 cs.AI

균형 잡힌 직접 선호도 최적화를 통한 안전성 향상

Improving Safety Alignment via Balanced Direct Preference Optimization

Shouwei Ruan
Shouwei Ruan
Citations: 335
h-index: 8
Qihui Zhu
Qihui Zhu
Citations: 12
h-index: 1
Shukun Xiong
Shukun Xiong
Citations: 2
h-index: 1
Fangzhou Chen
Fangzhou Chen
Citations: 30
h-index: 1
Ranjie Duan
Ranjie Duan
Citations: 4
h-index: 1
Xingxing Wei
Xingxing Wei
Citations: 106
h-index: 5
Shiji Zhao
Shiji Zhao
Citations: 242
h-index: 10
Mengyan Wang
Mengyan Wang
Citations: 16
h-index: 3
Yisong Xiao
Yisong Xiao
Citations: 231
h-index: 7
Xun Chen
Xun Chen
Citations: 18
h-index: 3

대규모 언어 모델(LLM)의 급속한 발전과 광범위한 적용으로 인해, 안전 관련 잠재적 위험에 대한 관심이 높아지고 있습니다. 강화 학습 기반 인간 피드백(RLHF)은 LLM의 안전 성능을 향상시키기 위해 널리 사용되어 왔습니다. RLHF의 간단하고 효과적인 대안으로, 직접 선호도 최적화(DPO)는 안전 정렬에 널리 사용됩니다. 그러나 안전 정렬은 여전히 심각한 과적합 문제를 겪고 있으며, 이는 실제 성능을 제한합니다. 본 논문에서는 모델이 학습 데이터를 이해하는 관점에서 과적합 현상을 재검토합니다. 우리는 선호도 쌍의 응답 간에 불균형적인 선호도 이해 현상이 존재하며, 이는 모델의 안전 성능을 저해한다는 것을 발견했습니다. 이를 해결하기 위해, 상호 정보에 기반하여 선호 및 비선호 응답 간의 최적화 강도를 적응적으로 조절하는 균형 잡힌 직접 선호도 최적화(B-DPO)를 제안합니다. 다양한 실험 결과는 B-DPO가 최첨단 방법과 비교하여 LLM의 안전 능력을 향상시키면서도, 다양한 주요 벤치마크에서 LLM의 경쟁력 있는 일반적인 능력을 유지한다는 것을 보여줍니다. (경고: 본 논문에는 유해한 텍스트의 예시가 포함되어 있으며, 독자의 주의가 필요합니다.)

Original Abstract

With the rapid development and widespread application of Large Language Models (LLMs), their potential safety risks have attracted widespread attention. Reinforcement Learning from Human Feedback (RLHF) has been adopted to enhance the safety performance of LLMs. As a simple and effective alternative to RLHF, Direct Preference Optimization (DPO) is widely used for safety alignment. However, safety alignment still suffers from severe overfitting, which limits its actual performance. This paper revisits the overfitting phenomenon from the perspective of the model's comprehension of the training data. We find that the Imbalanced Preference Comprehension phenomenon exists between responses in preference pairs, which compromises the model's safety performance. To address this, we propose Balanced Direct Preference Optimization (B-DPO), which adaptively modulates optimization strength between preferred and dispreferred responses based on mutual information. A series of experimental results show that B-DPO can enhance the safety capability while maintaining the competitive general capabilities of LLMs on various mainstream benchmarks compared to state-of-the-art methods. \color{red}{Warning: This paper contains examples of harmful texts, and reader discretion is recommended.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!