글로벌 언어 전반의 LLM 평가를 위한 방법론 개선
Improving Methodologies for LLM Evaluations Across Global Languages
최첨단 AI 모델이 전 세계적으로 배포됨에 따라, 다양한 언어 및 문화적 맥락에서 모델의 동작이 안전하고 신뢰할 수 있도록 유지하는 것이 필수적입니다. 이러한 환경에서 현재의 모델 안전 장치가 얼마나 잘 작동하는지 조사하기 위해, 싱가포르, 일본, 호주, 캐나다, EU, 프랑스, 케냐, 한국 및 영국의 대표를 포함한 '국제 첨단 AI 측정, 평가 및 과학 네트워크' 참가자들이 공동 다국어 평가를 수행했습니다. 싱가포르 AISI가 주도하여, 고자원 및 저자원 언어 그룹을 아우르는 10개 언어(광동어, 영어, 파르시어, 프랑스어, 일본어, 한국어, 키스와힐리어, 말레이어, 중국어 만다린, 텔루구어)에 대해 두 가지 오픈 웨이트 모델을 테스트했습니다. 6,000개 이상의 새로 번역된 프롬프트가 5가지 유해성 범주(개인정보, 비폭력 범죄, 폭력 범죄, 지식재산권, 제일브레이크 강건성)에 걸쳐 평가되었으며, 이 과정에서 '심사위원으로서의 LLM(LLM-as-a-judge)' 방식과 인간 주석 방식이 모두 사용되었습니다. 이 평가는 안전 관련 동작이 언어에 따라 어떻게 달라질 수 있는지를 보여줍니다. 여기에는 언어 및 유해성 유형에 따른 안전 장치 견고성의 차이, 그리고 평가자 신뢰도(LLM 심사 대 인간 검토)의 변동이 포함됩니다. 또한, 문화적 맥락을 반영한 번역, 스트레스 테스트를 거친 평가 프롬프트, 더 명확한 인간 주석 가이드라인의 필요성과 같이 다국어 안전성 평가를 개선하기 위한 방법론적 통찰력도 도출했습니다. 이 연구는 첨단 AI 시스템의 다국어 안전성 테스트를 위한 공유 프레임워크를 향한 첫 걸음이며, 더 넓은 연구 커뮤니티 및 산업계와의 지속적인 협력을 촉구합니다.
As frontier AI models are deployed globally, it is essential that their behaviour remains safe and reliable across diverse linguistic and cultural contexts. To examine how current model safeguards hold up in such settings, participants from the International Network for Advanced AI Measurement, Evaluation and Science, including representatives from Singapore, Japan, Australia, Canada, the EU, France, Kenya, South Korea and the UK conducted a joint multilingual evaluation exercise. Led by Singapore AISI, two open-weight models were tested across ten languages spanning high and low resourced groups: Cantonese English, Farsi, French, Japanese, Korean, Kiswahili, Malay, Mandarin Chinese and Telugu. Over 6,000 newly translated prompts were evaluated across five harm categories (privacy, non-violent crime, violent crime, intellectual property and jailbreak robustness), using both LLM-as-a-judge and human annotation. The exercise shows how safety behaviours can vary across languages. These include differences in safeguard robustness across languages and harm types and variation in evaluator reliability (LLM-as-judge vs. human review). Further, it also generated methodological insights for improving multilingual safety evaluations, such as the need for culturally contextualised translations, stress-tested evaluator prompts and clearer human annotation guidelines. This work represents an initial step toward a shared framework for multilingual safety testing of advanced AI systems and calls for continued collaboration with the wider research community and industry.
AI Analysis
Korean Summary
Key Innovations
- 10개국 기관이 협력하여 구축한 표준화된 다국어 AI 안전성 평가 접근 방식
- LLM-as-a-judge(심판 모델)와 인간 평가자 간의 신뢰성 및 불일치율 비교 분석
- 단순 번역을 넘어 문화적 맥락(예: 거절의 정중함, 현지 법률)을 고려한 평가 시도
- 경고 메시지를 출력하면서도 유해한 내용을 제공하는 '표면적 거절(Superficial Warnings)' 현상 식별
- 고자원 언어와 저자원 언어(예: 스와힐리어, 텔루구어) 간의 안전성 격차 규명
Learning & Inference Impact
이 연구 결과는 모델 학습 시 영어 데이터 중심의 안전장치 튜닝이 다국어 환경에서는 충분하지 않음을 시사합니다. 추론 및 배포 단계에서 모델은 언어별 문화적 뉘앙스에 따라 거절의 강도나 방식이 달라질 수 있으며, 특히 다국어 적대적 공격(Adversarial Attacks)에 대한 방어력을 높이기 위해 다국어 데이터셋을 활용한 추가적인 학습이 필요합니다. 평가 방법론 측면에서는 프롬프트의 직역이 아닌 문화적 현지화(Localization)가 필수적이며, 자동화된 평가 모델을 맹신하기보다 인간의 검토를 병행하는 하이브리드 평가 파이프라인 구축이 중요함을 강조합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.