2602.02734v3 Feb 02, 2026 eess.AS

WAXAL: 대규모 다국어 아프리카어 음성 데이터 코퍼스

WAXAL: A Large-Scale Multilingual African Language Speech Corpus

I. Wiafe
I. Wiafe
Citations: 671
h-index: 14
A. Ekpezu
A. Ekpezu
Citations: 102
h-index: 6
E. D. Atsakpo
E. D. Atsakpo
Citations: 15
h-index: 2
Fiifi Baffoe Payin Winful
Fiifi Baffoe Payin Winful
Citations: 14
h-index: 2
J. Abdulai
J. Abdulai
Citations: 1,395
h-index: 19
A. Diack
A. Diack
Citations: 1
h-index: 1
Perry H. Nelson
Perry H. Nelson
Citations: 25
h-index: 1
Kwaku Agbesi
Kwaku Agbesi
Citations: 21
h-index: 2
Angela Nakalembe
Angela Nakalembe
Citations: 0
h-index: 0
Mohamedelfatih Mohamedkhair
Mohamedelfatih Mohamedkhair
Citations: 2
h-index: 1
Vusumuzi Dube
Vusumuzi Dube
Citations: 275
h-index: 4
Tavonga Siyavora
Tavonga Siyavora
Citations: 0
h-index: 0
Subhashini Venugopalan
Subhashini Venugopalan
Citations: 2,335
h-index: 11
Jason Hickey
Jason Hickey
Citations: 48
h-index: 2
Uche Okonkwo
Uche Okonkwo
Citations: 42
h-index: 2
Abhishek Bapna
Abhishek Bapna
Citations: 2,083
h-index: 2
Raynard Dodzi Helegah
Raynard Dodzi Helegah
Citations: 1
h-index: 1
Charles Nutrokpor
Charles Nutrokpor
Citations: 23
h-index: 4
Kafui Kwashie Solaga
Kafui Kwashie Solaga
Citations: 1
h-index: 1
Audace Niyonkuru
Audace Niyonkuru
Citations: 0
h-index: 0
Samuel Rutunda
Samuel Rutunda
Citations: 251
h-index: 5
Boris Ishimwe
Boris Ishimwe
Citations: 0
h-index: 0
Michael Melese
Michael Melese
Citations: 142
h-index: 5
Engineer Bainomugisha
Engineer Bainomugisha
Citations: 955
h-index: 14
Joyce Nakatumba‐Nabende
Joyce Nakatumba‐Nabende
Citations: 495
h-index: 8
Andrew Katumba
Andrew Katumba
Citations: 85
h-index: 6
Claire Babirye
Claire Babirye
Citations: 35
h-index: 4
Jonathan Mukiibi
Jonathan Mukiibi
Citations: 583
h-index: 7
Vincent Kimani
Vincent Kimani
Citations: 0
h-index: 0
Samuel Kibacia
Samuel Kibacia
Citations: 0
h-index: 0
James Maina
James Maina
Citations: 40
h-index: 3
Fridah Emmah
Fridah Emmah
Citations: 0
h-index: 0
Ahmed Ibrahim Shekarau
Ahmed Ibrahim Shekarau
Citations: 0
h-index: 0
I. Adamu
I. Adamu
Citations: 63
h-index: 2
Y. Abdullahi
Y. Abdullahi
Citations: 1
h-index: 1
Howard Lakougna
Howard Lakougna
Citations: 20
h-index: 2
B. Macdonald
B. Macdonald
Citations: 52
h-index: 3
Hadar Shemtov
Hadar Shemtov
Citations: 2,121
h-index: 6
Aisha Walcott-Bryant
Aisha Walcott-Bryant
Citations: 338
h-index: 8
Moustapha Cissé
Moustapha Cissé
Citations: 252
h-index: 8
Avinatan Hassidim
Avinatan Hassidim
Citations: 12,112
h-index: 45
Jeff Dean
Jeff Dean
Citations: 353
h-index: 4
Yossi Matias
Yossi Matias
Citations: 678
h-index: 8

음성 기술의 발전은 주로 고자원 언어에 편중되어 왔으며, 이는 대부분의 사하라 이남 아프리카 언어 사용자를 대상으로 하는 상당한 디지털 격차를 야기했습니다. 이러한 격차를 해소하기 위해, 우리는 24개의 언어를 포괄하며 1억 명 이상의 사용자를 대표하는 대규모, 공개적으로 접근 가능한 음성 데이터셋인 WAXAL을 소개합니다. 이 데이터셋은 크게 두 가지 구성 요소로 이루어져 있습니다. 첫째는 자동 음성 인식(ASR) 데이터셋으로, 다양한 연령대의 화자로부터 수집된 약 1,250시간 분량의 자연스러운 음성 데이터를 포함하며, 음성이 전사되어 있습니다. 둘째는 텍스트 음성 변환(TTS) 데이터셋으로, 약 235시간 분량의 고품질, 단일 화자 녹음 데이터를 포함하며, 음성학적으로 균형 잡힌 스크립트를 읽도록 구성되어 있습니다. 본 논문에서는 데이터 수집, 주석 처리, 품질 관리 방법론을 상세히 설명하며, 이는 4개의 아프리카 학술 및 지역 사회 단체와의 협력을 통해 이루어졌습니다. 우리는 데이터셋에 대한 자세한 통계 정보를 제공하고, 잠재적인 제한 사항 및 윤리적 고려 사항에 대해 논의합니다. WAXAL 데이터셋은 https://huggingface.co/datasets/google/WaxalNLP 에서 CC-BY-4.0 라이선스에 따라 공개되며, 이는 연구를 촉진하고 포괄적인 기술 개발을 가능하게 하며, 이러한 언어의 디지털 보존을 위한 중요한 자원이 될 것입니다.

Original Abstract

The advancement of speech technology has predominantly favored high-resource languages, creating a significant digital divide for speakers of most Sub-Saharan African languages. To address this gap, we introduce WAXAL, a large-scale, openly accessible speech dataset for 24 languages representing over 100 million speakers. The collection consists of two main components: an Automated Speech Recognition (ASR) dataset containing approximately 1,250 hours of transcribed, natural speech from a diverse range of speakers, and a Text-to-Speech (TTS) dataset with around 235 hours of high-quality, single-speaker recordings reading phonetically balanced scripts. This paper details our methodology for data collection, annotation, and quality control, which involved partnerships with four African academic and community organizations. We provide a detailed statistical overview of the dataset and discuss its potential limitations and ethical considerations. The WAXAL datasets are released at https://huggingface.co/datasets/google/WaxalNLP under the permissive CC-BY-4.0 license to catalyze research, enable the development of inclusive technologies, and serve as a vital resource for the digital preservation of these languages.

0 Citations
0 Influential
42.5 Altmetric
212.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!