다국어 대규모 언어 모델은 모든 자연어를 동일한 수준으로 이해하지 않는다
Multilingual Large Language Models do not comprehend all natural languages to equal degrees
대규모 언어 모델(LLM)은 인간이 정보에 접근하는 방식에서 중요한 역할을 한다. LLM의 핵심 용도는 서면으로 된 요청을 이해하는 데 있지만, 현재 이러한 능력에 대한 우리의 이해는 제한적이다. 대부분의 벤치마크가 서구적이고, 교육 수준이 높으며, 산업화되고, 부유하며, 민주적인(WEIRD) 사회에서 주로 사용되는 고자원 언어 위주로 LLM을 평가하기 때문이다. 기본적으로 영어는 LLM에서 가장 뛰어난 성능을 보이는 언어인 반면, 규모가 작고 자원이 부족한 언어는 최첨단 다국어 모델에서조차 신뢰성이 떨어지는 결과물과 연결된다고 가정한다. LLM의 이해 능력 편차를 추적하기 위해, 우리는 인도유럽어족, 아프리카아시아어족, 튀르크어족, 중국티베트어족 및 일본어족을 대표하는 12개 언어에 걸쳐 3개의 인기 있는 모델을 대상으로 언어 이해 과제를 수행하게 했다. 연구 결과에 따르면, 모델들은 유형학적으로 다양한 언어 전반에 걸쳐 놀라운 언어적 정확성을 보였으나, 정도의 차이는 있을지언정 모든 언어에서 인간의 기준선(baseline)에는 미치지 못했다. 예상과 달리 영어는 최고 성능을 내는 언어가 아니었으며, 심지어 자원이 더 적은 언어를 포함한 여러 로망스어군 언어들이 체계적으로 영어를 능가했다. 우리는 토큰화, 스페인어 및 영어와의 언어적 거리, 훈련 데이터의 크기, 고자원 대 저자원 언어 및 WEIRD 대 비(非)WEIRD 사회에서의 데이터 출처 등 LLM 성능을 좌우하는 여러 요인의 역할을 논의하며 이러한 결과를 체계화한다.
Large Language Models (LLMs) play a critical role in how humans access information. While their core use relies on comprehending written requests, our understanding of this ability is currently limited, because most benchmarks evaluate LLMs in high-resource languages predominantly spoken by Western, Educated, Industrialised, Rich, and Democratic (WEIRD) communities. The default assumption is that English is the best-performing language for LLMs, while smaller, low-resource languages are linked to less reliable outputs, even in multilingual, state-of-the-art models. To track variation in the comprehension abilities of LLMs, we prompt 3 popular models on a language comprehension task across 12 languages, representing the Indo-European, Afro-Asiatic, Turkic, Sino-Tibetan, and Japonic language families. Our results suggest that the models exhibit remarkable linguistic accuracy across typologically diverse languages, yet they fall behind human baselines in all of them, albeit to different degrees. Contrary to what was expected, English is not the best-performing language, as it was systematically outperformed by several Romance languages, even lower-resource ones. We frame the results by discussing the role of several factors that drive LLM performance, such as tokenization, language distance from Spanish and English, size of training data, and data origin in high- vs. low-resource languages and WEIRD vs. non-WEIRD communities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.