2601.03537v1 Jan 07, 2026 cs.AI

STAR-S: 안전 규칙 기반 자가 학습 추론을 통한 안전 정렬 개선

STAR-S: Improving Safety Alignment through Self-Taught Reasoning on Safety Rules

Bing Qin
Bing Qin
Citations: 390
h-index: 11
Di Wu
Di Wu
Citations: 45
h-index: 3
Yanyan Zhao
Yanyan Zhao
Citations: 3
h-index: 1
Xin Lu
Xin Lu
Harbin Institute of Technology
Citations: 433
h-index: 10
Mingzhe Li
Mingzhe Li
Fudan University
Citations: 17
h-index: 1

탈옥(jailbreak) 공격을 방어하는 것은 대규모 언어 모델(LLM)의 안전한 배포를 위해 매우 중요합니다. 최근 연구들은 모델이 응답하기 전에 안전 규칙에 대해 추론하도록 훈련시킴으로써 안전성을 향상시키려는 시도를 해왔습니다. 그러나 핵심적인 문제는 어떤 형태의 안전 추론이 탈옥 공격을 효과적으로 방어하는지 결정하는 데 있으며, 이를 명시적으로 설계하거나 직접 획득하기는 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 안전 규칙 추론 학습을 자가 학습 루프에 통합하는 프레임워크인 STAR-S(안전 규칙 기반 자가 학습 추론)를 제안합니다. STAR-S의 핵심은 안전 규칙에 따른 추론과 성찰을 이끌어낸 다음, 미세 조정을 활용하여 안전 추론 능력을 강화하는 것입니다. 이 과정을 반복함으로써 시너지 효과를 내는 순환 구조가 생성됩니다. 모델의 추론 능력과 안전 규칙 해석 능력이 향상됨에 따라 안전 규칙 프롬프트 하에서 더 나은 추론 데이터를 생성할 수 있게 되며, 이는 다시 추가 훈련에 활용됩니다. 실험 결과, STAR-S는 탈옥 공격을 효과적으로 방어하며 베이스라인 모델들을 능가하는 성능을 보였습니다. 코드는 https://github.com/pikepokenew/STAR_S.git 에서 확인할 수 있습니다.

Original Abstract

Defending against jailbreak attacks is crucial for the safe deployment of Large Language Models (LLMs). Recent research has attempted to improve safety by training models to reason over safety rules before responding. However, a key issue lies in determining what form of safety reasoning effectively defends against jailbreak attacks, which is difficult to explicitly design or directly obtain. To address this, we propose \textbf{STAR-S} (\textbf{S}elf-\textbf{TA}ught \textbf{R}easoning based on \textbf{S}afety rules), a framework that integrates the learning of safety rule reasoning into a self-taught loop. The core of STAR-S involves eliciting reasoning and reflection guided by safety rules, then leveraging fine-tuning to enhance safety reasoning. Repeating this process creates a synergistic cycle. Improvements in the model's reasoning and interpretation of safety rules allow it to produce better reasoning data under safety rule prompts, which is then utilized for further training. Experiments show that STAR-S effectively defends against jailbreak attacks, outperforming baselines. Code is available at: https://github.com/pikepokenew/STAR_S.git.

1 Citations
0 Influential
25.5 Altmetric
128.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!