2602.20113v1 Feb 23, 2026 cs.SD

StyleStream: 실시간 제로샷 음성 스타일 변환

StyleStream: Real-Time Zero-Shot Voice Style Conversion

Yisi Liu
Yisi Liu
Citations: 2
h-index: 1
G. Anumanchipalli
G. Anumanchipalli
Citations: 3,538
h-index: 26
Nicholas Lee
Nicholas Lee
Citations: 18
h-index: 1

음성 스타일 변환은 입력 발화를 대상 화자의 음색, 억양 및 감정에 일치하도록 변환하는 것을 목표로 하며, 여기서 핵심 과제는 언어적 내용과 스타일을 분리하는 것입니다. 기존 연구들이 이 문제를 탐구해 왔으나 변환 품질은 여전히 제한적이며, 실시간 음성 스타일 변환은 아직 다루어지지 않았습니다. 본 논문에서는 최고 수준의(state-of-the-art) 성능을 달성하는 최초의 스트리밍 가능 제로샷 음성 스타일 변환 시스템인 StyleStream을 제안합니다. StyleStream은 두 가지 구성 요소로 이루어집니다. 하나는 언어적 내용을 유지하면서 스타일 속성을 제거하는 디스타일라이저(Destylizer)이고, 다른 하나는 참조 음성을 조건으로 하여 목표 스타일을 다시 주입하는 확산 트랜스포머(DiT) 기반의 스타일라이저(Stylizer)입니다. 강력한 내용-스타일 분리는 텍스트 지도(text supervision)와 고도로 제약된 정보 병목(information bottleneck)을 통해 보장됩니다. 이러한 설계를 통해 완전한 비자기회귀(non-autoregressive) 아키텍처를 구현함으로써, 종단간(end-to-end) 지연 시간 1초로 실시간 음성 스타일 변환을 달성합니다. 샘플 및 실시간 데모: https://berkeley-speech-group.github.io/StyleStream/

Original Abstract

Voice style conversion aims to transform an input utterance to match a target speaker's timbre, accent, and emotion, with a central challenge being the disentanglement of linguistic content from style. While prior work has explored this problem, conversion quality remains limited, and real-time voice style conversion has not been addressed. We propose StyleStream, the first streamable zero-shot voice style conversion system that achieves state-of-the-art performance. StyleStream consists of two components: a Destylizer, which removes style attributes while preserving linguistic content, and a Stylizer, a diffusion transformer (DiT) that reintroduces target style conditioned on reference speech. Robust content-style disentanglement is enforced through text supervision and a highly constrained information bottleneck. This design enables a fully non-autoregressive architecture, achieving real-time voice style conversion with an end-to-end latency of 1 second. Samples and real-time demo: https://berkeley-speech-group.github.io/StyleStream/.

0 Citations
0 Influential
13 Altmetric
65.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!