소외되는 언어가 없도록: 인간 중심 기계 번역의 확장
No Language Left Behind: Scaling Human-Centered Machine Translation
전 세계적인 언어 장벽을 허무는 것을 목표로 하는 기계 번역은 오늘날 인공지능 연구의 핵심 분야로 확고히 자리 잡았습니다. 그러나 이러한 노력은 소수의 언어에 집중되어 왔으며, 자원이 부족한(low-resource) 대다수의 언어는 소외되어 왔습니다. 윤리적 고려 사항을 염두에 두면서 안전하고 고품질의 결과를 보장하는 동시에 200개 언어 장벽을 허물기 위해서는 무엇이 필요할까요? 'No Language Left Behind(NLLB)' 프로젝트에서 우리는 먼저 원어민들과의 탐색적 인터뷰를 통해 저자원 언어 번역 지원의 필요성을 맥락화함으로써 이 도전에 나섰습니다. 그 후, 저자원 언어와 고자원 언어 간의 성능 격차를 좁히는 것을 목표로 데이터셋과 모델을 구축했습니다. 더 구체적으로는, 저자원 언어에 맞춰진 새롭고 효과적인 데이터 마이닝 기법으로 획득한 데이터를 학습하고, 'Sparsely Gated Mixture of Experts'를 기반으로 하는 조건부 연산(conditional compute) 모델을 개발했습니다. 우리는 수천 개의 작업을 훈련할 때 발생하는 과적합(overfitting)에 대응하기 위해 다양한 아키텍처 및 훈련 개선안을 제안합니다. 중요하게도, 우리는 사람이 번역한 벤치마크인 Flores-200을 사용하여 40,000개 이상의 다양한 번역 방향에 대한 성능을 평가했으며, 번역의 안전성을 평가하기 위해 Flores-200의 모든 언어를 포괄하는 새로운 독성(toxicity) 벤치마크와 인간 평가를 결합했습니다. 우리 모델은 기존 최신 기술(SOTA) 대비 44% 향상된 BLEU 점수를 달성하여 보편적 번역 시스템 실현을 위한 중요한 기반을 마련했습니다. 마지막으로, 우리는 본 연구에서 설명된 모든 결과물을 https://github.com/facebookresearch/fairseq/tree/nllb 에서 오픈 소스로 공개합니다.
Driven by the goal of eradicating language barriers on a global scale, machine translation has solidified itself as a key focus of artificial intelligence research today. However, such efforts have coalesced around a small subset of languages, leaving behind the vast majority of mostly low-resource languages. What does it take to break the 200 language barrier while ensuring safe, high quality results, all while keeping ethical considerations in mind? In No Language Left Behind, we took on this challenge by first contextualizing the need for low-resource language translation support through exploratory interviews with native speakers. Then, we created datasets and models aimed at narrowing the performance gap between low and high-resource languages. More specifically, we developed a conditional compute model based on Sparsely Gated Mixture of Experts that is trained on data obtained with novel and effective data mining techniques tailored for low-resource languages. We propose multiple architectural and training improvements to counteract overfitting while training on thousands of tasks. Critically, we evaluated the performance of over 40,000 different translation directions using a human-translated benchmark, Flores-200, and combined human evaluation with a novel toxicity benchmark covering all languages in Flores-200 to assess translation safety. Our model achieves an improvement of 44% BLEU relative to the previous state-of-the-art, laying important groundwork towards realizing a universal translation system. Finally, we open source all contributions described in this work, accessible at https://github.com/facebookresearch/fairseq/tree/nllb.
AI Analysis
Korean Summary
Key Innovations
- 200개 이상의 언어를 포괄하는 다대다 평가 데이터셋 'FLORES-200' 구축
- 저자원 언어 데이터 마이닝을 위한 새로운 문장 인코더 'LASER3'
- 545억 개의 파라미터를 효율적으로 학습시키는 'Sparsely Gated Mixture of Experts (MoE)' 모델 아키텍처
- 저자원 언어의 과적합을 방지하기 위한 '커리큘럼 학습(Curriculum Learning)' 및 '전문가 출력 마스킹(Expert Output Masking)' 정규화 기법
- 200개 언어에 대한 독성 감지 벤치마크 'Toxicity-200' 및 완화 전략
Learning & Inference Impact
학습 과정에서는 희소 게이트 전문가 혼합(MoE) 아키텍처를 도입하여 모델의 전체 파라미터 수는 545억 개로 대폭 늘리면서도, 실제 연산량은 33억 개 파라미터 수준의 밀집(Dense) 모델과 유사하게 유지하여 학습 효율성을 극대화했습니다. 또한, 고자원 언어와 저자원 언어 간의 데이터 불균형으로 인한 과적합 문제를 해결하기 위해 커리큘럼 학습을 적용하여 데이터가 적은 언어 쌍을 학습 후반부에 배치하고, EOM과 같은 정규화 기법을 통해 일반화 성능을 높였습니다. 추론 과정에서는 조건부 연산(Conditional Compute)을 통해 입력 토큰마다 필요한 전문가 네트워크만 활성화하여 연산 비용을 줄였으며, 실용적인 배포를 위해 거대 모델의 지식을 경량화된 학생 모델로 전이하는 지식 증류(Distillation) 기법을 활용하여 추론 속도와 접근성을 개선했습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.