2604.13286v1 Apr 14, 2026 cs.CL

영어만으로는 충분하지 않다: LLM의 추가 학습에서 다국어 능력의 역할을 체계적으로 탐구하다

English is Not All You Need: Systematically Exploring the Role of Multilinguality in LLM Post-Training

Dezhi Hong
Dezhi Hong
Citations: 2
h-index: 1
Thomas Butler
Thomas Butler
Citations: 1
h-index: 1
Mehak Preet Dhaliwal
Mehak Preet Dhaliwal
Citations: 135
h-index: 6
S. Chaurasia
S. Chaurasia
Citations: 2
h-index: 1
Yao Qin
Yao Qin
Citations: 48
h-index: 3

대규모 언어 모델이 널리 다국어로 사용되고 있지만, 추가 학습 과정은 여전히 영어 중심적인 경향을 보이며, 이로 인해 언어별 성능 차이가 발생합니다. 본 연구에서는 220개의 지도 학습 미세 조정 실험을 통해, 수학적 추론 및 API 호출 작업에 사용된 병렬 번역 다국어 데이터 조합을 기반으로, 학습 언어 범위, 모델 크기, 작업 도메인 간의 상호 작용을 체계적으로 분석했습니다. 모델 크기는 최대 80억 개의 파라미터를 사용했습니다. 연구 결과, 추가 학습 과정에서 언어 범위를 늘리는 것은 대부분의 작업과 모델 크기에 긍정적인 영향을 미치며, 특히 언어 자원이 부족한 언어에서 가장 큰 효과를 보이고, 언어 자원이 풍부한 언어에서는 성능 향상이 제한적이었습니다. 심지어 최소한의 다국어 능력도 도움이 됩니다. 하나의 비영어어를 추가하는 것만으로도 영어 성능과 교차 언어 일반화 능력이 향상되어, 영어만 사용하는 추가 학습은 비효율적입니다. 또한, 충분한 수준의 언어 다양성을 확보하면, 저다양성 환경에서 직접 언어를 포함하는 것과 유사하거나 더 나은 수준의 제로샷 교차 언어 전이가 가능하지만, 언어적 거리가 멀고 언어 자원이 부족한 언어에서는 효과가 제한적입니다.

Original Abstract

Despite the widespread multilingual deployment of large language models, post-training pipelines remain predominantly English-centric, contributing to performance disparities across languages. We present a systematic, controlled study of the interplay between training language coverage, model scale, and task domain, based on 220 supervised fine-tuning runs on parallel translated multilingual data mixtures spanning mathematical reasoning and API calling tasks, with models up to 8B parameters. We find that increasing language coverage during post-training is largely beneficial across tasks and model scales, with low-resource languages benefiting the most and high-resource languages plateauing rather than degrading. Even minimal multilinguality helps: incorporating a single non-English language improves both English performance and cross-lingual generalization, making English-only post-training largely suboptimal. Moreover, at sufficient language diversity, zero-shot cross-lingual transfer can match or exceed the effects of direct language inclusion in a low-diversity setting, although gains remain limited for typologically distant, low-resource languages.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!