Calliope: 정확한 동기화, 개인 정보 보호 및 레이아웃 충실성을 보장하는 TTS 기반 오디오북 제작 도구
Calliope: A TTS-based Narrated E-book Creator Ensuring Exact Synchronization, Privacy, and Layout Fidelity
오디오북은 디지털 텍스트와 동기화된 오디오를 결합하여 재생 중 현재 발음되는 단어나 문장을 강조하는 형식입니다. 이 형식은 조기 문해력을 지원하고 독서에 어려움을 겪는 사람들을 돕는 동시에, 일반 독자들이 읽기와 듣기를 원활하게 전환할 수 있도록 합니다. 자연스러운 음성으로 텍스트를 변환하는 텍스트 음성 변환(TTS) 기술의 발전으로, 표준 텍스트 전자책을 고품질 오디오북으로 변환하기 위한 다양한 상용 서비스가 개발되었습니다. 그러나 현재 이 작업을 수행할 수 있는 오픈 소스 솔루션은 존재하지 않습니다. 본 논문에서는 이러한 격차를 메우기 위해 설계된 오픈 소스 프레임워크인 Calliope을 소개합니다. 저희 방법은 최첨단 오픈 소스 TTS 기술을 활용하여 텍스트 전자책을 EPUB 3 Media Overlay 형식의 오디오북으로 변환합니다. 이 방법은 다음과 같은 혁신적인 단계를 포함합니다. 오디오 타임스탬프는 TTS 과정에서 직접 캡처되어 내레이션과 텍스트 강조 표시 간의 정확한 동기화를 보장합니다. 출판사의 원래 서체, 스타일 및 임베디드 미디어가 엄격하게 보존됩니다. 또한 전체 파이프라인은 오프라인으로 작동합니다. 이 오프라인 기능은 반복적인 API 비용을 없애고, 개인 정보 보호 문제를 완화하며, 클라우드 기반 서비스와 관련된 저작권 준수 문제를 피합니다. 현재 이 프레임워크는 최첨단 오픈 소스 TTS 시스템인 XTTS-v2 및 Chatterbox를 지원합니다. 잠재적인 대안적인 방법은 TTS를 통해 내레이션을 먼저 생성한 다음, 강제 정렬을 사용하여 이를 텍스트와 동기화하는 것입니다. 그러나 저희 방법은 정확한 동기화를 보장하는 반면, 저희 실험 결과 강제 정렬은 오디오와 텍스트 강조 표시 간에 상당한 드리프트를 유발하여 독서 경험을 저하시키는 것으로 나타났습니다. 소스 코드 및 사용 지침은 https://github.com/hugohammer/TTS-Narrated-Ebook-Creator.git 에서 확인할 수 있습니다.
A narrated e-book combines synchronized audio with digital text, highlighting the currently spoken word or sentence during playback. This format supports early literacy and assists individuals with reading challenges, while also allowing general readers to seamlessly switch between reading and listening. With the emergence of natural-sounding neural Text-to-Speech (TTS) technology, several commercial services have been developed to leverage these technology for converting standard text e-books into high-quality narrated e-books. However, no open-source solutions currently exist to perform this task. In this paper, we present Calliope, an open-source framework designed to fill this gap. Our method leverages state-of-the-art open-source TTS to convert a text e-book into a narrated e-book in the EPUB 3 Media Overlay format. The method offers several innovative steps: audio timestamps are captured directly during TTS, ensuring exact synchronization between narration and text highlighting; the publisher's original typography, styling, and embedded media are strictly preserved; and the entire pipeline operates offline. This offline capability eliminates recurring API costs, mitigates privacy concerns, and avoids copyright compliance issues associated with cloud-based services. The framework currently supports the state-of-the-art open-source TTS systems XTTS-v2 and Chatterbox. A potential alternative approach involves first generating narration via TTS and subsequently synchronizing it with the text using forced alignment. However, while our method ensures exact synchronization, our experiments show that forced alignment introduces drift between the audio and text highlighting significant enough to degrade the reading experience. Source code and usage instructions are available at https://github.com/hugohammer/TTS-Narrated-Ebook-Creator.git.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.