간단한 역할 할당이 안전성 정렬에 매우 효과적임
Simple Role Assignment is Extraordinarily Effective for Safety Alignment
원칙 기반 정렬은 종종 상황 맥락에 대한 민감성과 완전성이 부족합니다. 우리는 마음 이론에 기반하여, 보다 간결한 대안인 역할 조건화를 제안합니다. 사회적 역할(예: 어머니, 판사)은 가치와 함께 이를 적용하는 데 필요한 인지적 체계를 암묵적으로 포함합니다. 우리는 역할 기반 생성기와 반복적인 역할 기반 비평기를 특징으로 하는, 학습이 필요 없는 파이프라인을 소개합니다. 다섯 가지 모델 계열에서, 우리의 접근 방식은 일관되게 원칙 기반, 연쇄적 사고(Chain-of-Thought, CoT) 및 기타 기준 모델보다 우수한 성능을 보입니다. 특히, DeepSeek-V3 모델에서 WildJailbreak 벤치마크에서 안전하지 않은 출력 비율을 81.4%에서 3.6%로 줄였습니다. 일반적인 안전성 벤치마크뿐만 아니라, 에이전트 기반 안전성 작업에도 일관되게 적용됩니다. 이러한 결과는 역할 할당을 AI 정렬 및 LLM-as-a-Judge 구축을 위한 강력하고 해석 가능한 패러다임으로 확립합니다.
Principle-based alignment often lacks context sensitivity and completeness. Grounded in Theory of Mind, we propose role conditioning as a compact alternative: social roles (e.g., mother, judge) implicitly encode both values and the cognitive schemas required to apply them. We introduce a training-free pipeline featuring a role-conditioned generator and iterative role-based critics for refinement. Across five model families, our approach consistently outperforms principle-based, Chain-of-Thought (CoT) and other baselines across benchmarks. Notably, it reduces unsafe outputs on the WildJailbreak benchmark from 81.4\% to 3.6\% with DeepSeek-V3. Not only for common safety benchmarks, it consistently applies for agentic safety tasks. These results establish role assignment as a powerful, interpretable paradigm for AI alignment and LLM-as-a-Judge construction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.