본 논문에서는 Voxtral TTS를 소개합니다. Voxtral TTS는 3초 정도의 짧은 참조 오디오만으로도 자연스러운 음성을 생성하는, 표현력이 풍부한 다국어 텍스트 음성 변환 모델입니다. Voxtral TTS는 의미론적 음성 토큰의 자동 회귀 생성과 음향 토큰의 플로우 매칭을 결합한 하이브리드 아키텍처를 채택합니다. 이러한 토큰은 처음부터 하이브리드 VQ-FSQ 양자화 방식을 사용하여 학습된 음성 토크나이저인 Voxtral Codec를 사용하여 인코딩 및 디코딩됩니다. 원어민 평가에서 Voxtral TTS는 자연스러움과 표현력으로 인해 ElevenLabs Flash v2.5보다 68.4%의 우수한 성능을 보였으며, 다국어 음성 복제에 더 선호되었습니다. 본 모델의 가중치는 CC BY-NC 라이선스하에 공개됩니다.
Original
Abstract
We introduce Voxtral TTS, an expressive multilingual text-to-speech model that generates natural speech from as little as 3 seconds of reference audio. Voxtral TTS adopts a hybrid architecture that combines auto-regressive generation of semantic speech tokens with flow-matching for acoustic tokens. These tokens are encoded and decoded with Voxtral Codec, a speech tokenizer trained from scratch with a hybrid VQ-FSQ quantization scheme. In human evaluations conducted by native speakers, Voxtral TTS is preferred for multilingual voice cloning due to its naturalness and expressivity, achieving a 68.4\% win rate over ElevenLabs Flash v2.5. We release the model weights under a CC BY-NC license.