2603.08823v2 Mar 09, 2026 cs.SD

Fish Audio S2 기술 보고서

Fish Audio S2 Technical Report

Songting Liu
Songting Liu
Citations: 50
h-index: 2
Xin Chen
Xin Chen
Citations: 38
h-index: 4
Shijia Liao
Shijia Liao
Citations: 290
h-index: 4
Yuxuan Wang
Yuxuan Wang
Citations: 1
h-index: 1
Yifan Cheng
Yifan Cheng
Citations: 53
h-index: 2
Ruoyi Zhang
Ruoyi Zhang
Citations: 53
h-index: 2
Tianyu Li
Tianyu Li
Citations: 17
h-index: 2
Shidong Li
Shidong Li
Citations: 2
h-index: 1
Yi Zheng
Yi Zheng
Citations: 11
h-index: 3
X. Liu
X. Liu
Citations: 1
h-index: 1
Qingzheng Wang
Qingzheng Wang
Citations: 3
h-index: 1
Zhizhuo Zhou
Zhizhuo Zhou
Citations: 15
h-index: 2
Jiahuan Liu
Jiahuan Liu
Citations: 0
h-index: 0
Dawei Han
Dawei Han
Citations: 9
h-index: 2

본 논문에서는 Fish Audio S2를 소개합니다. Fish Audio S2는 오픈 소스 텍스트 음성 변환 시스템으로, 다중 화자, 다중 턴 생성 기능을 제공하며, 가장 중요한 점은 자연어 설명을 통한 명령어 기반 제어가 가능하다는 것입니다. 학습 효율성을 높이기 위해, 우리는 비디오 캡션 및 음성 캡션 생성, 음성 품질 평가, 그리고 보상 모델링을 포함하는 다단계 학습 레시피와 데이터 파이프라인을 개발했습니다. 오픈 소스 TTS 기술 발전을 위해, 저희는 모델 가중치, 파인튜닝 코드, 그리고 SGLang 기반 추론 엔진을 공개합니다. 개발된 추론 엔진은 스트리밍 환경에 적합하며, RTF (Real-Time Factor)가 0.195, 최초 오디오 출력 시간은 100ms 미만으로 매우 빠릅니다. 저희의 코드와 가중치는 GitHub (https://github.com/fishaudio/fish-speech) 및 Hugging Face (https://huggingface.co/fishaudio/s2-pro)에서 확인하실 수 있습니다. 사용자 정의 음성을 사용해보고 싶으신 분들은 https://fish.audio를 방문해 주시기 바랍니다.

Original Abstract

We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.

0 Citations
0 Influential
62 Altmetric
310.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!