1911.02116 Nov 05, 2019 cs.AI

대규모 비지도 교차 언어 표현 학습

Unsupervised Cross-lingual Representation Learning at Scale

Naman Goyal

Citations: 132,454

h-index: 38

Edouard Grave

Citations: 62,644

h-index: 46

Veselin Stoyanov

Meta AI

Citations: 56,532

h-index: 32

Francisco (Paco) Guzmán

Handshake AI

Citations: 29,229

h-index: 30

Kartikay Khandelwal

Citations: 22,765

h-index: 6

Alexis Conneau

Citations: 27,219

h-index: 30

Vishrav Chaudhary

Citations: 20,388

h-index: 32

Guillaume Wenzek

Citations: 13,938

h-index: 17

Myle Ott

Facebook AI Research

Citations: 61,898

h-index: 38

Luke Zettlemoyer

University of Washington

Citations: 133,299

h-index: 116

본 논문은 다국어 언어 모델을 대규모로 사전 학습시키는 것이 광범위한 교차 언어 전이 과제에서 상당한 성능 향상을 가져온다는 것을 보여줍니다. 우리는 2테라바이트 이상의 정제된 CommonCrawl 데이터를 사용하여 100개 언어에 대해 Transformer 기반의 마스크 된 언어 모델(masked language model)을 학습시켰습니다. XLM-R이라고 명명된 우리의 모델은 XNLI에서 평균 정확도 14.6% 향상, MLQA에서 평균 F1 점수 13% 향상, NER에서 F1 점수 2.4% 향상을 포함하여 다양한 교차 언어 벤치마크에서 다국어 BERT(mBERT)를 크게 능가했습니다. XLM-R은 특히 자원이 부족한 언어(low-resource languages)에서 우수한 성능을 보였으며, 이전 XLM 모델 대비 스와힐리어의 XNLI 정확도는 15.7%, 우르두어는 11.4% 향상되었습니다. 또한 우리는 (1) 긍정적 전이(positive transfer)와 용량 희석(capacity dilution) 간의 트레이드오프, (2) 대규모 환경에서의 고자원 및 저자원 언어의 성능 등 이러한 성능 향상을 달성하는 데 필요한 주요 요인들에 대한 상세한 실증적 분석을 제시합니다. 마지막으로, 우리는 개별 언어의 성능을 희생하지 않으면서 다국어 모델링이 가능하다는 것을 처음으로 보여주었습니다. XLM-R은 GLUE 및 XNLI 벤치마크에서 강력한 단일 언어 모델들과 견주어도 매우 경쟁력이 있습니다. 우리는 코드, 데이터 및 모델을 공개할 예정입니다.

Original Abstract

This paper shows that pretraining multilingual language models at scale leads to significant performance gains for a wide range of cross-lingual transfer tasks. We train a Transformer-based masked language model on one hundred languages, using more than two terabytes of filtered CommonCrawl data. Our model, dubbed XLM-R, significantly outperforms multilingual BERT (mBERT) on a variety of cross-lingual benchmarks, including +14.6% average accuracy on XNLI, +13% average F1 score on MLQA, and +2.4% F1 score on NER. XLM-R performs particularly well on low-resource languages, improving 15.7% in XNLI accuracy for Swahili and 11.4% for Urdu over previous XLM models. We also present a detailed empirical analysis of the key factors that are required to achieve these gains, including the trade-offs between (1) positive transfer and capacity dilution and (2) the performance of high and low resource languages at scale. Finally, we show, for the first time, the possibility of multilingual modeling without sacrificing per-language performance; XLM-R is very competitive with strong monolingual models on the GLUE and XNLI benchmarks. We will make our code, data and models publicly available.

8238 Citations

1695 Influential

30 Altmetric

11,778.0 Score

Original PDF

AI Analysis

Korean Summary

이 논문은 100개 언어로 구성된 2.5TB 규모의 정제된 CommonCrawl 데이터를 사용하여 학습된 대규모 다국어 마스크 언어 모델인 'XLM-RoBERTa (XLM-R)'를 소개합니다. 연구진은 다국어 모델 학습 시 언어의 수가 늘어날수록 모델의 용량이 분산되어 성능이 저하되는 '다국어의 저주(curse of multilinguality)' 현상을 분석하고, 이를 모델 용량(파라미터 수)과 어휘 사전 크기를 늘림으로써 해결할 수 있음을 입증했습니다. XLM-R은 XNLI, NER, QA 등 다양한 다국어 벤치마크에서 기존의 mBERT나 XLM을 크게 능가하는 성능을 보였으며, 특히 데이터가 부족한 저자원 언어(Low-resource languages)에서 비약적인 성능 향상을 달성했습니다. 또한 단일 다국어 모델이 RoBERTa와 같은 강력한 단일 언어 모델과 대등한 성능을 낼 수 있음을 보여주었습니다.

Key Innovations

위키백과 대신 100개 언어의 CommonCrawl 데이터(CC-100)를 활용한 대규모 사전 학습
'다국어의 저주(Curse of Multilinguality)' 현상(용량 희석 vs 전이 학습 트레이드오프) 규명 및 해결책 제시
250k 토큰 크기의 대용량 공용 어휘 사전(Shared Vocabulary)과 Sentence Piece 모델(SPM) 적용
저자원 언어(스와힐리어, 우르두어 등)에 대한 크로스 링구얼 전이 성능의 획기적 향상
단일 모델로 100개 언어를 처리하면서도 단일 언어 전용 모델(Monolingual Model) 수준의 경쟁력 확보

Learning & Inference Impact

학습 과정에서는 검증 퍼플렉시티(perplexity)가 수렴한 이후에도 계속 학습을 진행하는 것이 다운스트림 태스크 성능 향상에 도움이 된다는 점을 발견했습니다. 또한 모델의 깊이나 너비뿐만 아니라 공유 어휘 사전의 크기를 키우는 것이 다국어 성능 향상에 결정적인 역할을 함을 확인했습니다. 추론 측면에서는 하나의 모델로 100개 언어를 모두 처리할 수 있어 배포 효율성이 매우 높지만, 성능 유지를 위해 모델 파라미터 수와 어휘 사전이 커졌으므로 메모리 사용량과 연산 비용은 기존 베이스 모델 대비 증가했습니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!