2207.04672 Jul 11, 2022 cs.AI

소외되는 언어가 없도록: 인간 중심 기계 번역의 확장

No Language Left Behind: Scaling Human-Centered Machine Translation

Jeff Wang
Jeff Wang
Citations: 2,909
h-index: 6
Kenneth Heafield
Kenneth Heafield
Citations: 22,272
h-index: 33
Onur cCelebi
Onur cCelebi
Citations: 14,872
h-index: 4
Sergey Edunov
Sergey Edunov
Facebook AI Research
Citations: 45,670
h-index: 19
Shruti Bhosale
Shruti Bhosale
Citations: 34,231
h-index: 21
Vedanuj Goswami
Vedanuj Goswami
Citations: 34,134
h-index: 21
Francisco (Paco) Guzmán
Francisco (Paco) Guzmán
Handshake AI
Citations: 27,388
h-index: 29
Guillaume Wenzek
Guillaume Wenzek
Citations: 13,392
h-index: 17
Nllb team
Nllb team
Citations: 1,675
h-index: 1
M. Costa-jussà
M. Costa-jussà
Citations: 8,010
h-index: 35
James Cross
James Cross
Citations: 2,981
h-index: 18
Maha Elbayad
Maha Elbayad
Inria, University Grenoble alpes, LIG
Citations: 3,108
h-index: 13
Kevin Heffernan
Kevin Heffernan
Citations: 2,227
h-index: 11
Elahe Kalbassi
Elahe Kalbassi
Citations: 2,517
h-index: 11
Janice Lam
Janice Lam
Citations: 2,215
h-index: 8
Daniel Licht
Daniel Licht
Citations: 2,586
h-index: 12
Jean Maillard
Jean Maillard
Facebook AI
Citations: 2,569
h-index: 13
Anna Sun
Anna Sun
Citations: 2,171
h-index: 10
Skyler Wang
Skyler Wang
Citations: 2,529
h-index: 10
Alison Youngblood
Alison Youngblood
Citations: 1,699
h-index: 3
Bapi Akula
Bapi Akula
Citations: 2,297
h-index: 7
Loïc Barrault
Loïc Barrault
Meta AI, The University of Sheffield, Le Mans Université
Citations: 10,786
h-index: 33
G. Gonzalez
G. Gonzalez
Citations: 2,395
h-index: 7
Prangthip Hansanti
Prangthip Hansanti
Citations: 2,481
h-index: 10
John Hoffman
John Hoffman
Citations: 2,363
h-index: 7
Semarley Jarrett
Semarley Jarrett
Citations: 1,873
h-index: 3
Kaushik Ram Sadagopan
Kaushik Ram Sadagopan
Meta Platforms, Stanford University
Citations: 2,486
h-index: 9
Dirk Rowe
Dirk Rowe
Citations: 2,359
h-index: 3
Shannon L. Spruit
Shannon L. Spruit
Citations: 2,743
h-index: 13
C. Tran
C. Tran
Citations: 2,915
h-index: 9
Pierre Yves Andrews
Pierre Yves Andrews
meta, trento university, university of york, university of Sao Paulo
Citations: 2,538
h-index: 12
Necip Fazil Ayan
Necip Fazil Ayan
Citations: 2,794
h-index: 16
Angela Fan
Angela Fan
Citations: 38,186
h-index: 37
Cynthia Gao
Cynthia Gao
Citations: 19,424
h-index: 14
Philipp Koehn
Philipp Koehn
Johns Hopkins University
Citations: 44,963
h-index: 69
Alexandre Mourachko
Alexandre Mourachko
Meta AI
Citations: 2,130
h-index: 6
C. Ropers
C. Ropers
Citations: 2,627
h-index: 12
Safiyyah Saleem
Safiyyah Saleem
Citations: 2,640
h-index: 11
Holger Schwenk
Holger Schwenk
Citations: 43,637
h-index: 48

전 세계적인 언어 장벽을 허무는 것을 목표로 하는 기계 번역은 오늘날 인공지능 연구의 핵심 분야로 확고히 자리 잡았습니다. 그러나 이러한 노력은 소수의 언어에 집중되어 왔으며, 자원이 부족한(low-resource) 대다수의 언어는 소외되어 왔습니다. 윤리적 고려 사항을 염두에 두면서 안전하고 고품질의 결과를 보장하는 동시에 200개 언어 장벽을 허물기 위해서는 무엇이 필요할까요? 'No Language Left Behind(NLLB)' 프로젝트에서 우리는 먼저 원어민들과의 탐색적 인터뷰를 통해 저자원 언어 번역 지원의 필요성을 맥락화함으로써 이 도전에 나섰습니다. 그 후, 저자원 언어와 고자원 언어 간의 성능 격차를 좁히는 것을 목표로 데이터셋과 모델을 구축했습니다. 더 구체적으로는, 저자원 언어에 맞춰진 새롭고 효과적인 데이터 마이닝 기법으로 획득한 데이터를 학습하고, 'Sparsely Gated Mixture of Experts'를 기반으로 하는 조건부 연산(conditional compute) 모델을 개발했습니다. 우리는 수천 개의 작업을 훈련할 때 발생하는 과적합(overfitting)에 대응하기 위해 다양한 아키텍처 및 훈련 개선안을 제안합니다. 중요하게도, 우리는 사람이 번역한 벤치마크인 Flores-200을 사용하여 40,000개 이상의 다양한 번역 방향에 대한 성능을 평가했으며, 번역의 안전성을 평가하기 위해 Flores-200의 모든 언어를 포괄하는 새로운 독성(toxicity) 벤치마크와 인간 평가를 결합했습니다. 우리 모델은 기존 최신 기술(SOTA) 대비 44% 향상된 BLEU 점수를 달성하여 보편적 번역 시스템 실현을 위한 중요한 기반을 마련했습니다. 마지막으로, 우리는 본 연구에서 설명된 모든 결과물을 https://github.com/facebookresearch/fairseq/tree/nllb 에서 오픈 소스로 공개합니다.

Original Abstract

Driven by the goal of eradicating language barriers on a global scale, machine translation has solidified itself as a key focus of artificial intelligence research today. However, such efforts have coalesced around a small subset of languages, leaving behind the vast majority of mostly low-resource languages. What does it take to break the 200 language barrier while ensuring safe, high quality results, all while keeping ethical considerations in mind? In No Language Left Behind, we took on this challenge by first contextualizing the need for low-resource language translation support through exploratory interviews with native speakers. Then, we created datasets and models aimed at narrowing the performance gap between low and high-resource languages. More specifically, we developed a conditional compute model based on Sparsely Gated Mixture of Experts that is trained on data obtained with novel and effective data mining techniques tailored for low-resource languages. We propose multiple architectural and training improvements to counteract overfitting while training on thousands of tasks. Critically, we evaluated the performance of over 40,000 different translation directions using a human-translated benchmark, Flores-200, and combined human evaluation with a novel toxicity benchmark covering all languages in Flores-200 to assess translation safety. Our model achieves an improvement of 44% BLEU relative to the previous state-of-the-art, laying important groundwork towards realizing a universal translation system. Finally, we open source all contributions described in this work, accessible at https://github.com/facebookresearch/fairseq/tree/nllb.

1686 Citations
150 Influential
90 Altmetric
2,436.0 Score

AI Analysis

Korean Summary

이 논문은 Meta AI의 'No Language Left Behind (NLLB)' 프로젝트를 통해 200개 이상의 언어를 지원하는 단일 대규모 다국어 기계 번역 모델인 NLLB-200을 제안합니다. 연구진은 저자원 언어의 번역 품질을 획기적으로 개선하기 위해 새로운 데이터 마이닝 기법(LASER3), 고품질 평가 데이터셋(FLORES-200), 그리고 희소 게이트 전문가 혼합(Sparsely Gated Mixture of Experts) 아키텍처를 도입했습니다. 이를 통해 기존 최신 모델 대비 평균 44%의 BLEU 점수 향상을 달성했으며, 독성 표현 감지 및 완화 기술을 포함한 안전한 번역 시스템 구축을 위한 포괄적인 방법론을 제시합니다.

Key Innovations

  • 200개 이상의 언어를 포괄하는 다대다 평가 데이터셋 'FLORES-200' 구축
  • 저자원 언어 데이터 마이닝을 위한 새로운 문장 인코더 'LASER3'
  • 545억 개의 파라미터를 효율적으로 학습시키는 'Sparsely Gated Mixture of Experts (MoE)' 모델 아키텍처
  • 저자원 언어의 과적합을 방지하기 위한 '커리큘럼 학습(Curriculum Learning)' 및 '전문가 출력 마스킹(Expert Output Masking)' 정규화 기법
  • 200개 언어에 대한 독성 감지 벤치마크 'Toxicity-200' 및 완화 전략

Learning & Inference Impact

학습 과정에서는 희소 게이트 전문가 혼합(MoE) 아키텍처를 도입하여 모델의 전체 파라미터 수는 545억 개로 대폭 늘리면서도, 실제 연산량은 33억 개 파라미터 수준의 밀집(Dense) 모델과 유사하게 유지하여 학습 효율성을 극대화했습니다. 또한, 고자원 언어와 저자원 언어 간의 데이터 불균형으로 인한 과적합 문제를 해결하기 위해 커리큘럼 학습을 적용하여 데이터가 적은 언어 쌍을 학습 후반부에 배치하고, EOM과 같은 정규화 기법을 통해 일반화 성능을 높였습니다. 추론 과정에서는 조건부 연산(Conditional Compute)을 통해 입력 토큰마다 필요한 전문가 네트워크만 활성화하여 연산 비용을 줄였으며, 실용적인 배포를 위해 거대 모델의 지식을 경량화된 학생 모델로 전이하는 지식 증류(Distillation) 기법을 활용하여 추론 속도와 접근성을 개선했습니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!