2601.18292v2 Jan 26, 2026 cs.LG

TriPlay-RL: LLM 안전 정렬을 위한 다중 역할 자기 학습 강화 학습

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

Wenhan Yu
Wenhan Yu
Citations: 6
h-index: 1
Xiaokun Yuan
Xiaokun Yuan
Citations: 1
h-index: 1
Tong Yang
Tong Yang
Citations: 13
h-index: 2
Lin Sun
Lin Sun
Citations: 160
h-index: 6
Xiangzheng Zhang
Xiangzheng Zhang
Citations: 9
h-index: 2
Zhewen Tan
Zhewen Tan
Citations: 6
h-index: 1
Jianfeng Si
Jianfeng Si
Citations: 6
h-index: 1
Tongxin Liu
Tongxin Liu
Citations: 134
h-index: 5
Kai Guan
Kai Guan
Citations: 34
h-index: 3
Huiyan Jin
Huiyan Jin
Citations: 517
h-index: 9
J. Tao
J. Tao
Citations: 21
h-index: 1
Duohe Ma
Duohe Ma
Citations: 23
h-index: 2

최근 몇 년 동안, 대규모 언어 모델(LLM)과 관련된 안전 문제는 점점 더 심각해지고 있으며, 유해하고 독성적인 콘텐츠 생성을 완화해야 할 필요성이 절실합니다. LLM 안전 정렬의 주류 패러다임은 일반적으로 세 가지 역할을 포함하는 협업 프레임워크를 채택합니다. 여기에는 적대적 프롬프트를 생성하는 공격자, 안전 방어를 담당하는 방어자, 그리고 응답을 평가하는 평가자가 포함됩니다. 본 논문에서는 거의 수동 어노테이션 없이 세 가지 역할 간의 반복적이고 상호 개선적인 협력을 가능하게 하는 TriPlay-RL이라는 폐쇄 루프 강화 학습 프레임워크를 제안합니다. 실험 결과, 공격자는 높은 출력 다양성을 유지하면서도 적대적 효과를 20~50% 향상시켰습니다. 방어자는 일반적인 추론 능력을 저하시키지 않고 안전 성능을 10~30% 향상시켰습니다. 또한 평가자는 반복을 통해 미세한 판단 능력을 지속적으로 개선하여 안전하지 않은 응답, 단순한 거부, 그리고 유용한 지침을 정확하게 구별합니다. 전반적으로, 당사의 프레임워크는 LLM 안전 정렬을 위한 효율적이고 확장 가능한 패러다임을 구축하며, 통합된 학습 루프 내에서 지속적인 공동 진화를 가능하게 합니다.

Original Abstract

In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!