X-VC: 코덱 공간에서의 제로샷 스트리밍 음성 변환
X-VC: Zero-shot Streaming Voice Conversion in Codec Space
제로샷 음성 변환(VC)은 소스 발화를 변환하여 새로운 대상 화자의 목소리로 바꾸는 것을 목표로 하며, 이때 발화의 언어적 내용은 유지해야 합니다. 최근 시스템들은 변환 품질을 향상시켰지만, 대화형 시나리오를 위한 제로샷 VC 시스템을 구축하는 것은 여전히 어렵습니다. 이는 높은 음질의 화자 변환과 낮은 지연 시간의 스트리밍 추론을 동시에 달성하기 어렵기 때문입니다. 본 연구에서는 사전 훈련된 신경망 코덱의 잠재 공간에서 단일 단계 변환을 수행하는 제로샷 스트리밍 VC 시스템인 X-VC를 제안합니다. X-VC는 이중 조건부 음향 변환기를 사용하여 사전 훈련된 신경망 코덱의 소스 잠재 벡터와 대상 참조 음성에서 파생된 프레임 수준의 음향 조건을 동시에 모델링하며, 적응적 정규화를 통해 발화 수준의 대상 화자 정보를 주입합니다. 훈련과 추론 간의 불일치를 줄이기 위해, 우리는 생성된 쌍 데이터와 표준, 재구성 및 역방향 모드를 결합한 역할 할당 전략을 사용하여 모델을 훈련합니다. 스트리밍 추론을 위해, 우리는 코덱의 세그먼트 기반 훈련 패러다임과 일치하는 오버랩 스무딩을 적용한 청크 기반 추론 방식을 채택합니다. Seed-TTS-Eval 데이터셋에 대한 실험 결과, X-VC는 영어 및 중국어 모두에서 최고의 스트리밍 단어 오류율(WER)을 달성했으며, 동일 언어 및 교차 언어 환경에서 높은 화자 유사성을 보였으며, 비교 대상 시스템보다 훨씬 낮은 오프라인 실시간 계수를 나타냈습니다. 이러한 결과는 코덱 공간에서의 단일 단계 변환이 고품질의 낮은 지연 시간의 제로샷 VC 시스템을 구축하는 데 효과적인 접근 방식임을 시사합니다. 오디오 샘플은 https://x-vc.github.io 에서 확인할 수 있습니다. 또한, 코드 및 체크포인트도 공개될 예정입니다.
Zero-shot voice conversion (VC) aims to convert a source utterance into the voice of an unseen target speaker while preserving its linguistic content. Although recent systems have improved conversion quality, building zero-shot VC systems for interactive scenarios remains challenging because high-fidelity speaker transfer and low-latency streaming inference are difficult to achieve simultaneously. In this work, we present X-VC, a zero-shot streaming VC system that performs one-step conversion in the latent space of a pretrained neural codec. X-VC uses a dual-conditioning acoustic converter that jointly models source codec latents and frame-level acoustic conditions derived from target reference speech, while injecting utterance-level target speaker information through adaptive normalization. To reduce the mismatch between training and inference, we train the model with generated paired data and a role-assignment strategy that combines standard, reconstruction, and reversed modes. For streaming inference, we further adopt a chunkwise inference scheme with overlap smoothing that is aligned with the segment-based training paradigm of the codec. Experiments on Seed-TTS-Eval show that X-VC achieves the best streaming WER in both English and Chinese, strong speaker similarity in same-language and cross-lingual settings, and substantially lower offline real-time factor than the compared baselines. These results suggest that codec-space one-step conversion is a practical approach for building high-quality low-latency zero-shot VC systems. Audio samples are available at https://x-vc.github.io. Our code and checkpoints will also be released.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.