한 번 정렬하면 다국어에서 효과: LLM 안전성 정렬을 위한 다국어 일관성 강화
Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety Alignment
대규모 언어 모델(LLM)이 다양한 언어 커뮤니티에 널리 배포됨에 따라, 신뢰할 수 있는 다국어 안전성 정렬이 필수적입니다. 그러나 최근 다른 언어로의 정렬 확장은 종종 상당한 자원을 필요로 합니다. 이는 대상 언어에서 대규모의 고품질 지도 데이터를 사용하거나, 풍부한 자원을 가진 언어와의 쌍방향 정렬을 통해 이루어지는데, 이는 확장성을 제한합니다. 본 연구에서는 다국어 안전성 정렬을 개선하기 위한 자원 효율적인 방법을 제안합니다. 기존의 단일 언어 정렬 파이프라인에 통합될 수 있는 플러그 앤 플레이 방식의 다국어 일관성(MLC) 손실 함수를 소개합니다. 다국어 표현 벡터 간의 일관성을 향상시킴으로써, 본 방법은 단일 업데이트를 통해 다국어 의미 수준에서 방향성을 유지하도록 장려합니다. 이를 통해 추가적인 저자원 언어의 응답 수준 지도 없이, 다국어 프롬프트 변형만 사용하여 여러 언어를 동시에 정렬할 수 있습니다. 제안된 방법은 다양한 모델 아키텍처 및 정렬 패러다임에서 검증되었으며, 일반적인 모델 유용성에 미치는 영향이 제한적이면서 다국어 안전성을 향상시키는 데 효과적임이 입증되었습니다. 다양한 언어 및 작업에 대한 추가적인 평가 결과, 교차 언어 일반화 능력이 향상되었으며, 이는 제안된 접근 방식이 제한된 지도 환경에서 다국어 일관성 정렬을 위한 실용적인 솔루션임을 시사합니다.
The widespread deployment of large language models (LLMs) across linguistic communities necessitates reliable multilingual safety alignment. However, recent efforts to extend alignment to other languages often require substantial resources, either through large-scale, high-quality supervision in the target language or through pairwise alignment with high-resource languages, which limits scalability. In this work, we propose a resource-efficient method for improving multilingual safety alignment. We introduce a plug-and-play Multi-Lingual Consistency (MLC) loss that can be integrated into existing monolingual alignment pipelines. By improving collinearity between multilingual representation vectors, our method encourages directional consistency at the multilingual semantic level in a single update. This allows simultaneous alignment across multiple languages using only multilingual prompt variants without requiring additional response-level supervision in low-resource languages. We validate the proposed method across different model architectures and alignment paradigms, and demonstrate its effectiveness in enhancing multilingual safety with limited impact on general model utility. Further evaluation across languages and tasks indicates improved cross-lingual generalization, suggesting the proposed approach as a practical solution for multilingual consistency alignment under limited supervision.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.