규정과 함께 판례를 통한 추론: LLM 안전성을 위한 사례 보강 숙고적 정렬
Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety
거대언어모델(LLM)이 무해한 요청을 거부하지 않으면서 안전 원칙을 준수하도록 보장하는 것은 여전히 중요한 과제입니다. OpenAI는 상세한 '코드 유사(code-like)' 안전 규칙에 대한 추론을 통해 o-시리즈 모델의 안전성을 강화하고자 숙고적 정렬(deliberative alignment, DA)을 도입했지만, 일반적으로 고급 추론 능력이 부족한 오픈 소스 LLM에서 이 접근 방식의 효과는 충분히 연구되지 않았습니다. 본 연구에서는 광범위한 안전 코드를 명시적으로 지정하는 것과 예시 사례를 통해 이를 보여주는 것의 영향을 체계적으로 평가합니다. 연구 결과, 명시적 코드를 참조하는 것은 무해성(harmlessness)을 일관성 없이 개선하고 유용성(helpfulness)을 체계적으로 저하시키는 반면, 사례가 보강된 간단한 코드로 훈련하는 것은 더 견고하고 일반화된 안전 행동을 산출한다는 사실을 발견했습니다. 광범위한 코드 유사 안전 규칙 대신 사례가 보강된 추론으로 LLM을 유도함으로써, 좁게 나열된 규칙에 대한 경직된 준수를 피하고 더 넓은 적응성을 가능하게 합니다. 이러한 통찰을 바탕으로, 우리는 자가 생성된 안전 추론 체인에 대한 강화 학습을 활용하는 LLM용 사례 보강 숙고적 정렬 방법인 CADA를 제안합니다. CADA는 다양한 벤치마크에서 유용성을 보존하면서 무해성을 효과적으로 강화하고, 공격에 대한 견고성을 개선하며, 과잉 거부(over-refusal)를 줄여줍니다. 이는 안전성을 개선하면서도 유용성을 유지하기 위한 규칙 전용(rule-only) DA의 실용적인 대안을 제공합니다.
Ensuring that Large Language Models (LLMs) adhere to safety principles without refusing benign requests remains a significant challenge. While OpenAI introduces deliberative alignment (DA) to enhance the safety of its o-series models through reasoning over detailed ``code-like'' safety rules, the effectiveness of this approach in open-source LLMs, which typically lack advanced reasoning capabilities, is understudied. In this work, we systematically evaluate the impact of explicitly specifying extensive safety codes versus demonstrating them through illustrative cases. We find that referencing explicit codes inconsistently improves harmlessness and systematically degrades helpfulness, whereas training on case-augmented simple codes yields more robust and generalized safety behaviors. By guiding LLMs with case-augmented reasoning instead of extensive code-like safety rules, we avoid rigid adherence to narrowly enumerated rules and enable broader adaptability. Building on these insights, we propose CADA, a case-augmented deliberative alignment method for LLMs utilizing reinforcement learning on self-generated safety reasoning chains. CADA effectively enhances harmlessness, improves robustness against attacks, and reduces over-refusal while preserving utility across diverse benchmarks, offering a practical alternative to rule-only DA for improving safety while maintaining helpfulness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.