2604.04204v1 Apr 05, 2026 cs.CL

LLM이 선호하는 영어는 무엇인가? 기초 모델에서 나타나는 미국 영어 편향성에 대한 삼각 측량적 연구

Which English Do LLMs Prefer? Triangulating Structural Bias Towards American English in Foundation Models

Mir Tafseer Nayeem
Mir Tafseer Nayeem
Citations: 417
h-index: 11
Davood Rafiei
Davood Rafiei
Citations: 237
h-index: 6

대규모 언어 모델(LLM)은 점점 더 중요한 영역에서 활용되고 있지만, 영어(미국) 설정만 주로 제공하며, 이는 영어의 세계적인 다양성과 식민지 역사와는 거리가 멀다. 본 연구는 포스트 식민주의 관점을 통해 데이터 큐레이션, 디지털 지배, 언어 표준화의 지정학적 역사가 LLM 개발 과정에 미치는 영향에 대해 조사한다. 미국 영어(AmE)와 영국 영어(BrE)라는 두 가지 주요 표준 방언에 초점을 맞춰, 1,813개의 AmE-BrE 변형으로 구성된 큐레이션된 코퍼스를 구축하고, 분포적 증거를 활용하여 방언 정렬을 추정하는 학습이 필요 없는 방법인 DiAlign을 소개한다. 구조적 편향을 세 가지 측면에서 분석하였다. 첫째, 6개의 주요 사전 훈련 코퍼스에 대한 분석을 통해 AmE에 대한 체계적인 편향이 드러났다. 둘째, 토크나이저 분석 결과, BrE 형태가 더 높은 분할 비용을 발생시키는 것으로 나타났다. 셋째, 생성 평가 결과, 모델 출력에서 지속적인 AmE 선호 현상이 관찰되었다. 본 연구는 LLM 개발의 다양한 단계에서 표준 영어 방언 간의 비대칭성에 대한 최초의 체계적이고 다각적인 분석이다. 연구 결과, 현대 LLM은 AmE를 사실상의 표준으로 간주하며, 이는 언어적 균질화, 인식론적 불공정성, 그리고 전 세계 AI 배포에서의 불평등 문제를 야기할 수 있다. 본 연구는 더욱 다양한 방언을 포용하는 언어 기술 개발을 위한 실질적인 단계를 제시한다.

Original Abstract

Large language models (LLMs) are increasingly deployed in high-stakes domains, yet they expose only limited language settings, most notably "English (US)," despite the global diversity and colonial history of English. Through a postcolonial framing to explain the broader significance, we investigate how geopolitical histories of data curation, digital dominance, and linguistic standardization shape the LLM development pipeline. Focusing on two dominant standard varieties, American English (AmE) and British English (BrE), we construct a curated corpus of 1,813 AmE--BrE variants and introduce DiAlign, a dynamic, training-free method for estimating dialectal alignment using distributional evidence. We operationalize structural bias by triangulating evidence across three stages: (i) audits of six major pretraining corpora reveal systematic skew toward AmE, (ii) tokenizer analyses show that BrE forms incur higher segmentation costs, and (iii) generative evaluations show a persistent AmE preference in model outputs. To our knowledge, this is the first systematic and multi-faceted examination of dialectal asymmetries in standard English varieties across the phases of LLM development. We find that contemporary LLMs privilege AmE as the de facto norm, raising concerns about linguistic homogenization, epistemic injustice, and inequity in global AI deployment, while motivating practical steps toward more dialectally inclusive language technologies.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!