2602.02734v3 Feb 02, 2026 eess.AS

WAXAL: 대규모 다국어 아프리카어 음성 데이터 코퍼스

WAXAL: A Large-Scale Multilingual African Language Speech Corpus

I. Wiafe
I. Wiafe
Citations: 713
h-index: 14
A. Ekpezu
A. Ekpezu
Citations: 122
h-index: 7
E. D. Atsakpo
E. D. Atsakpo
Citations: 24
h-index: 3
Fiifi Baffoe Payin Winful
Fiifi Baffoe Payin Winful
Citations: 23
h-index: 3
J. Abdulai
J. Abdulai
Citations: 1,437
h-index: 19
A. Diack
A. Diack
Citations: 5
h-index: 1
Perry H. Nelson
Perry H. Nelson
Citations: 29
h-index: 2
Kwaku Agbesi
Kwaku Agbesi
Citations: 26
h-index: 3
Angela Nakalembe
Angela Nakalembe
Citations: 4
h-index: 1
Mohamedelfatih Mohamedkhair
Mohamedelfatih Mohamedkhair
Citations: 9
h-index: 2
Vusumuzi Dube
Vusumuzi Dube
Citations: 348
h-index: 4
Tavonga Siyavora
Tavonga Siyavora
Citations: 4
h-index: 1
Subhashini Venugopalan
Subhashini Venugopalan
Citations: 3,598
h-index: 11
Jason Hickey
Jason Hickey
Citations: 58
h-index: 4
Uche Okonkwo
Uche Okonkwo
Citations: 47
h-index: 3
Abhishek Bapna
Abhishek Bapna
Citations: 3,294
h-index: 3
Raynard Dodzi Helegah
Raynard Dodzi Helegah
Citations: 6
h-index: 1
Charles Nutrokpor
Charles Nutrokpor
Citations: 31
h-index: 4
Kafui Kwashie Solaga
Kafui Kwashie Solaga
Citations: 6
h-index: 1
Audace Niyonkuru
Audace Niyonkuru
Citations: 4
h-index: 1
Samuel Rutunda
Samuel Rutunda
Citations: 290
h-index: 6
Boris Ishimwe
Boris Ishimwe
Citations: 4
h-index: 1
Michael Melese
Michael Melese
Citations: 150
h-index: 5
Engineer Bainomugisha
Engineer Bainomugisha
Citations: 1,007
h-index: 15
J. Nakatumba‐Nabende
J. Nakatumba‐Nabende
Citations: 582
h-index: 9
Claire Babirye
Claire Babirye
Citations: 44
h-index: 4
Jonathan Mukiibi
Jonathan Mukiibi
Citations: 675
h-index: 8
Vincent Kimani
Vincent Kimani
Citations: 4
h-index: 1
Samuel Kibacia
Samuel Kibacia
Citations: 4
h-index: 1
James Maina
James Maina
Citations: 46
h-index: 4
Fridah Emmah
Fridah Emmah
Citations: 4
h-index: 1
Ahmed Ibrahim Shekarau
Ahmed Ibrahim Shekarau
Citations: 4
h-index: 1
I. Adamu
I. Adamu
Citations: 78
h-index: 3
Howard Lakougna
Howard Lakougna
Citations: 47
h-index: 3
B. Macdonald
B. Macdonald
Citations: 77
h-index: 4
Hadar Shemtov
Hadar Shemtov
Citations: 3,336
h-index: 6
Aisha Walcott-Bryant
Aisha Walcott-Bryant
Citations: 347
h-index: 8
Moustapha Cissé
Moustapha Cissé
Citations: 259
h-index: 8
Avinatan Hassidim
Avinatan Hassidim
Citations: 14,151
h-index: 46
Jeff Dean
Jeff Dean
Citations: 435
h-index: 4
Yossi Matias
Yossi Matias
Citations: 911
h-index: 10
A. Katumba
A. Katumba
Citations: 1,037
h-index: 17
Y. Abdullahi
Y. Abdullahi
Citations: 21
h-index: 3

음성 기술의 발전은 주로 고자원 언어에 편중되어 왔으며, 이는 대부분의 사하라 이남 아프리카 언어 사용자를 대상으로 하는 상당한 디지털 격차를 야기했습니다. 이러한 격차를 해소하기 위해, 우리는 24개의 언어를 포괄하며 1억 명 이상의 사용자를 대표하는 대규모, 공개적으로 접근 가능한 음성 데이터셋인 WAXAL을 소개합니다. 이 데이터셋은 크게 두 가지 구성 요소로 이루어져 있습니다. 첫째는 자동 음성 인식(ASR) 데이터셋으로, 다양한 연령대의 화자로부터 수집된 약 1,250시간 분량의 자연스러운 음성 데이터를 포함하며, 음성이 전사되어 있습니다. 둘째는 텍스트 음성 변환(TTS) 데이터셋으로, 약 235시간 분량의 고품질, 단일 화자 녹음 데이터를 포함하며, 음성학적으로 균형 잡힌 스크립트를 읽도록 구성되어 있습니다. 본 논문에서는 데이터 수집, 주석 처리, 품질 관리 방법론을 상세히 설명하며, 이는 4개의 아프리카 학술 및 지역 사회 단체와의 협력을 통해 이루어졌습니다. 우리는 데이터셋에 대한 자세한 통계 정보를 제공하고, 잠재적인 제한 사항 및 윤리적 고려 사항에 대해 논의합니다. WAXAL 데이터셋은 https://huggingface.co/datasets/google/WaxalNLP 에서 CC-BY-4.0 라이선스에 따라 공개되며, 이는 연구를 촉진하고 포괄적인 기술 개발을 가능하게 하며, 이러한 언어의 디지털 보존을 위한 중요한 자원이 될 것입니다.

Original Abstract

The advancement of speech technology has predominantly favored high-resource languages, creating a significant digital divide for speakers of most Sub-Saharan African languages. To address this gap, we introduce WAXAL, a large-scale, openly accessible speech dataset for 24 languages representing over 100 million speakers. The collection consists of two main components: an Automated Speech Recognition (ASR) dataset containing approximately 1,250 hours of transcribed, natural speech from a diverse range of speakers, and a Text-to-Speech (TTS) dataset with around 235 hours of high-quality, single-speaker recordings reading phonetically balanced scripts. This paper details our methodology for data collection, annotation, and quality control, which involved partnerships with four African academic and community organizations. We provide a detailed statistical overview of the dataset and discuss its potential limitations and ethical considerations. The WAXAL datasets are released at https://huggingface.co/datasets/google/WaxalNLP under the permissive CC-BY-4.0 license to catalyze research, enable the development of inclusive technologies, and serve as a vital resource for the digital preservation of these languages.

4 Citations
1 Influential
43 Altmetric
221.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!