자기 증류를 통한 다국어 안전 정렬
Multilingual Safety Alignment via Self-Distillation
대규모 언어 모델(LLM)은 심각한 다국어 안전 불일치를 보입니다. 즉, 자원이 풍부한 언어에서는 강력한 안전 장치를 갖추고 있지만, 자원이 부족한 언어에서는 여전히 공격에 취약합니다. 현재의 안전 정렬 방법은 일반적으로 각 대상 언어에 대한 고품질 응답 데이터를 필요로 하지만, 이는 비용이 많이 들고 생성하기 어렵습니다. 본 논문에서는 다국어 자기 증류(Multilingual Self-Distillation, MSD)라는 교차 언어 안전 기능 전달 프레임워크를 제안합니다. 이 프레임워크는 LLM의 고유한 안전 기능을 자원이 풍부한 언어(예: 영어)에서 자원이 부족한 언어(예: 자바어)로 전달하여, 어떤 언어에서도 응답 데이터가 필요 없도록 합니다. 본 프레임워크는 유연하며 다양한 자기 증류 전략과 통합될 수 있습니다. 구체적으로, 온-정책 자기 증류 및 오프-정책 자기 증류라는 두 가지 방법을 구현했으며, 이 두 가지 방법 모두 다국어 쿼리만 사용하여 효과적인 교차 언어 안전 전달을 가능하게 합니다. 또한, 증류 목표를 최적화하기 위한 분산 측정 기준으로, 교사 모델과 학생 모델의 관점을 동시에 고려하는 이중 관점 안전 가중치(Dual-Perspective Safety Weighting, DPSW)를 제안합니다. DPSW는 안전에 중요한 토큰에 대한 페널티 가중치를 적응적으로 증가시키고, 중요하지 않은 토큰에 대한 가중치를 감소시킵니다. 다양한 다국어 공격 및 유틸리티 벤치마크에서 대표적인 LLM에 대한 광범위한 실험 결과, 본 방법이 일관되게 우수한 다국어 안전 성능을 달성함을 보여줍니다. 특히, 본 방법은 더 까다로운 데이터셋과 새로운 언어에 효과적으로 일반화되며, 모델의 일반적인 기능을 유지합니다.
Large language models (LLMs) exhibit severe multilingual safety misalignment: they possess strong safeguards in high-resource languages but remain highly vulnerable to jailbreak attacks in low-resource languages. Current safety alignment methods generally rely on high-quality response data for each target language, which is expensive and difficult to generate. In this paper, we propose a cross-lingual safeguard transfer framework named Multilingual Self-Distillation (MSD). This framework transfers an LLM's inherent safety capabilities from high-resource (e.g., English) to low-resource (e.g., Javanese) languages, overcoming the need for response data in any language. Our framework is flexible and can be integrated with different self-distillation strategies. Specifically, we implement two concrete methods -- on-policy MSD and off-policy MSD -- both of which enable effective cross-lingual safety transfer using only multilingual queries. Furthermore, we propose Dual-Perspective Safety Weighting (DPSW), a divergence measure to optimize the distillation objective. By jointly considering the perspectives of both the teacher and the student, DPSW adaptively increases the penalty weights on safety-critical tokens while reducing the weights on non-critical tokens. Extensive experiments on representative LLMs across diverse multilingual jailbreak and utility benchmarks demonstrate that our method consistently achieves superior multilingual safety performance. Notably, it generalizes effectively to more challenging datasets and unseen languages while preserving the model's general capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.