WAXAL: 대규모 다국어 아프리카어 음성 데이터 코퍼스
WAXAL: A Large-Scale Multilingual African Language Speech Corpus
음성 기술의 발전은 주로 고자원 언어에 편중되어 왔으며, 이는 대부분의 사하라 이남 아프리카 언어 사용자를 대상으로 하는 상당한 디지털 격차를 야기했습니다. 이러한 격차를 해소하기 위해, 우리는 24개의 언어를 포괄하며 1억 명 이상의 사용자를 대표하는 대규모, 공개적으로 접근 가능한 음성 데이터셋인 WAXAL을 소개합니다. 이 데이터셋은 크게 두 가지 구성 요소로 이루어져 있습니다. 첫째는 자동 음성 인식(ASR) 데이터셋으로, 다양한 연령대의 화자로부터 수집된 약 1,250시간 분량의 자연스러운 음성 데이터를 포함하며, 음성이 전사되어 있습니다. 둘째는 텍스트 음성 변환(TTS) 데이터셋으로, 약 235시간 분량의 고품질, 단일 화자 녹음 데이터를 포함하며, 음성학적으로 균형 잡힌 스크립트를 읽도록 구성되어 있습니다. 본 논문에서는 데이터 수집, 주석 처리, 품질 관리 방법론을 상세히 설명하며, 이는 4개의 아프리카 학술 및 지역 사회 단체와의 협력을 통해 이루어졌습니다. 우리는 데이터셋에 대한 자세한 통계 정보를 제공하고, 잠재적인 제한 사항 및 윤리적 고려 사항에 대해 논의합니다. WAXAL 데이터셋은 https://huggingface.co/datasets/google/WaxalNLP 에서 CC-BY-4.0 라이선스에 따라 공개되며, 이는 연구를 촉진하고 포괄적인 기술 개발을 가능하게 하며, 이러한 언어의 디지털 보존을 위한 중요한 자원이 될 것입니다.
The advancement of speech technology has predominantly favored high-resource languages, creating a significant digital divide for speakers of most Sub-Saharan African languages. To address this gap, we introduce WAXAL, a large-scale, openly accessible speech dataset for 24 languages representing over 100 million speakers. The collection consists of two main components: an Automated Speech Recognition (ASR) dataset containing approximately 1,250 hours of transcribed, natural speech from a diverse range of speakers, and a Text-to-Speech (TTS) dataset with around 235 hours of high-quality, single-speaker recordings reading phonetically balanced scripts. This paper details our methodology for data collection, annotation, and quality control, which involved partnerships with four African academic and community organizations. We provide a detailed statistical overview of the dataset and discuss its potential limitations and ethical considerations. The WAXAL datasets are released at https://huggingface.co/datasets/google/WaxalNLP under the permissive CC-BY-4.0 license to catalyze research, enable the development of inclusive technologies, and serve as a vital resource for the digital preservation of these languages.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.