IndicSafe: 남아시아 지역 다국어 LLM 안전성 평가를 위한 벤치마크
IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia
대규모 언어 모델(LLM)이 다국어 환경에 배포됨에 따라, 문화적으로 다양하고 자원이 부족한 언어에서 LLM의 안전성에 대한 이해는 여전히 부족합니다. 본 연구에서는 12개의 인도 지역 언어에 대한 LLM 안전성을 체계적으로 평가했습니다. 이 언어들은 12억 명이 사용하지만 LLM 학습 데이터에서는 상대적으로 부족하게 대표됩니다. 우리는 계급, 종교, 성별, 건강, 정치 등 다양한 문화적 맥락을 반영하는 6,000개의 프롬프트 데이터 세트를 사용하여 10개의 주요 LLM을 대상으로 번역된 프롬프트 변형에 대한 성능을 평가했습니다. 분석 결과, 상당한 안전성 편차가 나타났습니다. 언어 간 일치도는 12.8%에 불과하며, 언어별로 SAFE 지표의 변동 폭은 17%를 초과합니다. 일부 모델은 자원이 부족한 스크립트에서 무해한 프롬프트에 대해 과도하게 거부 반응을 보이거나, 정치적으로 민감한 주제를 과도하게 감지하는 반면, 다른 모델은 안전하지 않은 응답을 제대로 감지하지 못합니다. 우리는 이러한 실패를 프롬프트 수준의 엔트로피, 범주 편향 점수 및 다국어 일관성 지수를 사용하여 정량화했습니다. 본 연구의 결과는 다국어 LLM에서 중요한 안전성 일반화 격차가 있음을 보여주며, 안전성 조정이 모든 언어에 걸쳐 균등하게 적용되지 않음을 시사합니다. 우리는 인도 지역 환경에서의 문화적으로 민감한 안전성 평가를 가능하게 하는 최초의 벤치마크인 IndicSafe를 공개하고, 지역적 피해를 고려한 언어 인지적 조정 전략을 옹호합니다.
As large language models (LLMs) are deployed in multilingual settings, their safety behavior in culturally diverse, low-resource languages remains poorly understood. We present the first systematic evaluation of LLM safety across 12 Indic languages, spoken by over 1.2 billion people but underrepresented in LLM training data. Using a dataset of 6,000 culturally grounded prompts spanning caste, religion, gender, health, and politics, we assess 10 leading LLMs on translated variants of the prompt. Our analysis reveals significant safety drift: cross-language agreement is just 12.8\%, and \texttt{SAFE} rate variance exceeds 17\% across languages. Some models over-refuse benign prompts in low-resource scripts, overflag politically sensitive topics, while others fail to flag unsafe generations. We quantify these failures using prompt-level entropy, category bias scores, and multilingual consistency indices. Our findings highlight critical safety generalization gaps in multilingual LLMs and show that safety alignment does not transfer evenly across languages. We release \textsc{IndicSafe}, the first benchmark to enable culturally informed safety evaluation for Indic deployments, and advocate for language-aware alignment strategies grounded in regional harms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.