2602.20113v1 Feb 23, 2026 cs.SD

StyleStream: 실시간 제로샷 음성 스타일 변환

StyleStream: Real-Time Zero-Shot Voice Style Conversion

Yisi Liu
Yisi Liu
Citations: 2
h-index: 1
G. Anumanchipalli
G. Anumanchipalli
Citations: 3,783
h-index: 27
Nicholas Lee
Nicholas Lee
Citations: 27
h-index: 2

음성 스타일 변환은 입력 발화를 대상 화자의 음색, 억양 및 감정에 일치하도록 변환하는 것을 목표로 하며, 여기서 핵심 과제는 언어적 내용과 스타일을 분리하는 것입니다. 기존 연구들이 이 문제를 탐구해 왔으나 변환 품질은 여전히 제한적이며, 실시간 음성 스타일 변환은 아직 다루어지지 않았습니다. 본 논문에서는 최고 수준의(state-of-the-art) 성능을 달성하는 최초의 스트리밍 가능 제로샷 음성 스타일 변환 시스템인 StyleStream을 제안합니다. StyleStream은 두 가지 구성 요소로 이루어집니다. 하나는 언어적 내용을 유지하면서 스타일 속성을 제거하는 디스타일라이저(Destylizer)이고, 다른 하나는 참조 음성을 조건으로 하여 목표 스타일을 다시 주입하는 확산 트랜스포머(DiT) 기반의 스타일라이저(Stylizer)입니다. 강력한 내용-스타일 분리는 텍스트 지도(text supervision)와 고도로 제약된 정보 병목(information bottleneck)을 통해 보장됩니다. 이러한 설계를 통해 완전한 비자기회귀(non-autoregressive) 아키텍처를 구현함으로써, 종단간(end-to-end) 지연 시간 1초로 실시간 음성 스타일 변환을 달성합니다. 샘플 및 실시간 데모: https://berkeley-speech-group.github.io/StyleStream/

Original Abstract

Voice style conversion aims to transform an input utterance to match a target speaker's timbre, accent, and emotion, with a central challenge being the disentanglement of linguistic content from style. While prior work has explored this problem, conversion quality remains limited, and real-time voice style conversion has not been addressed. We propose StyleStream, the first streamable zero-shot voice style conversion system that achieves state-of-the-art performance. StyleStream consists of two components: a Destylizer, which removes style attributes while preserving linguistic content, and a Stylizer, a diffusion transformer (DiT) that reintroduces target style conditioned on reference speech. Robust content-style disentanglement is enforced through text supervision and a highly constrained information bottleneck. This design enables a fully non-autoregressive architecture, achieving real-time voice style conversion with an end-to-end latency of 1 second. Samples and real-time demo: https://berkeley-speech-group.github.io/StyleStream/.

0 Citations
0 Influential
13.5 Altmetric
67.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!