위치 정보 없음: 다국어 LLM에서 드러나는 내재적 지역 및 전역 편향 분석
Location Not Found: Exposing Implicit Local and Global Biases in Multilingual LLMs
다국어 대규모 언어 모델(LLM)은 언어 간의 유창성 격차를 줄이는 데 기여했습니다. 그러나 이러한 발전은 모델이 편향된 행동을 보일 위험에 노출시키는데, 이는 지식과 규범이 언어 간에 전파될 수 있기 때문입니다. 본 연구에서는 모델의 상호 언어 및 내부 언어 편향을 정량화하는 것을 목표로 하며, 이를 위해 지역 정보가 명확하게 드러나지 않는 질문에 대한 모델의 답변 능력을 평가합니다. 이를 위해, 우리는 12개 언어로 구성된 2,156개의 질문으로 이루어진 테스트 데이터셋인 LocQA를 제시합니다. LocQA는 법률, 날짜, 측정 단위 등 다양한 지역 의존적 사실과 관련된 질문들을 포함하며, 질문 자체에는 관련 지역을 나타내는 정보가 포함되어 있지 않습니다 (쿼리 언어 외). 따라서, LLM이 LocQA의 지역 정보가 명확하지 않은 질문에 대해 제공하는 답변은 모델의 내재적인 선입견을 드러냅니다. 우리는 LocQA를 사용하여 32개의 모델을 평가하고, 두 가지 유형의 구조적 편향을 발견했습니다. 상호 언어적으로, 모델이 영어 이외의 언어로 질문을 받았을 때에도 미국 지역과 관련된 답변에 대한 전역적 편향이 나타나는 것을 확인했습니다. 또한, Instruction tuning을 거친 모델에서 이러한 전역적 편향이 기본 모델에 비해 더욱 심화되는 것을 발견했습니다. 내부 언어적으로, 동일한 언어에 여러 지역이 관련될 경우, 모델은 인구 규모가 더 큰 지역을 우선시하는 경향을 보이는, 즉 인구 통계적 확률 엔진처럼 작동하는 것을 확인했습니다. LocQA를 통해 얻은 이러한 통찰력은 LLM의 바람직한 지역별 행동을 형성하고, 다양한 훈련 단계가 다양한 유형의 편향에 미치는 영향을 정량화하는 데 도움이 될 수 있습니다.
Multilingual large language models (LLMs) have minimized the fluency gap between languages. This advancement, however, exposes models to the risk of biased behavior, as knowledge and norms may propagate across languages. In this work, we aim to quantify models' inter- and intra-lingual biases, via their ability to answer locale-ambiguous questions. To this end, we present LocQA, a test set containing 2,156 questions in 12 languages, referring to various locale-dependent facts such as laws, dates, and measurements. The questions do not contain indications of the locales they relate to, other than the querying language itself. LLMs' responses to LocQA locale-ambiguous questions thus reveal models' implicit priors. We used LocQA to evaluate 32 models, and detected two types of structural biases. Inter-lingually, we show a global bias towards answers relevant to the US-locale, even when models are asked in languages other than English. Moreover, we discovered that this global bias is exacerbated in models that underwent instruction tuning, compared to their base counterparts. Intra-lingually, we show that when multiple locales are relevant for the same language, models act as demographic probability engines, prioritizing locales with larger populations. Taken together, insights from LocQA may help in shaping LLMs' desired local behavior, and in quantifying the impact of various training phases on different kinds of biases.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.