2601.18184v1 Jan 26, 2026 cs.SD

VIBEVOICE-ASR 기술 보고서

VIBEVOICE-ASR Technical Report

Liang Wang
Liang Wang
Citations: 53
h-index: 3
Furu Wei
Furu Wei
Citations: 168
h-index: 6
Yi Zhu
Yi Zhu
Citations: 33
h-index: 3
Shaohan Huang
Shaohan Huang
Citations: 262
h-index: 4
Zhiliang Peng
Zhiliang Peng
Citations: 4,070
h-index: 14
Jianwei Yu
Jianwei Yu
Citations: 17
h-index: 1
Yaoyao Chang
Yaoyao Chang
Citations: 23
h-index: 2
Zilong Wang
Zilong Wang
Citations: 66
h-index: 2
Li Dong
Li Dong
Citations: 8
h-index: 1
Ying Hao
Ying Hao
Citations: 12
h-index: 1
Yujie Tu
Yujie Tu
Citations: 0
h-index: 0
Chenyu Yang
Chenyu Yang
Citations: 41
h-index: 4
Wenhui Wang
Wenhui Wang
Citations: 9,526
h-index: 23
Songcheng Xu
Songcheng Xu
Citations: 62
h-index: 3
Yutao Sun
Yutao Sun
Tsinghua University
Citations: 1,705
h-index: 11
Hangbo Bao
Hangbo Bao
Harbin Institute of Technology
Citations: 9,351
h-index: 17
Weijiang Xu
Weijiang Xu
Citations: 79
h-index: 3
Zehua Wang
Zehua Wang
Citations: 38
h-index: 2
Ting Song
Ting Song
Citations: 713
h-index: 8
Yan Xia
Yan Xia
Citations: 0
h-index: 0
Zewen Chi
Zewen Chi
Beijing Institute of Technology
Citations: 2,593
h-index: 18
Chuang Ding
Chuang Ding
Citations: 450
h-index: 7
Shuai Wang
Shuai Wang
Citations: 1
h-index: 1
Xie Chen
Xie Chen
Citations: 47
h-index: 2

본 보고서는 VibeVoice를 기반으로 구축된, 범용 음성 이해 프레임워크인 VibeVoice-ASR을 소개합니다. VibeVoice-ASR은 최근 단문 음성 인식 기술의 발전에도 불구하고 여전히 해결해야 할 과제인, 긴 형태의 오디오(예: 회의, 팟캐스트)에서 발생하는 문맥 단편화 및 다중 화자 복잡성 문제를 해결하도록 설계되었습니다. 기존의 파이프라인 방식과 달리, VibeVoice-ASR은 최대 60분 분량의 오디오를 단일 단계로 처리할 수 있습니다. 또한, 음성 인식, 화자 분리, 타임스탬프 기능을 하나의 통합된 엔드-투-엔드 생성 작업으로 통합합니다. 더불어, VibeVoice-ASR은 50개 이상의 언어를 지원하며, 명시적인 언어 설정 없이도 작동하며, 발화 내외부의 코드 스위칭을 자연스럽게 처리합니다. 또한, 프롬프트 기반의 문맥 주입 메커니즘을 도입하여 사용자가 맞춤형 문맥 정보를 제공할 수 있도록 하여, 특정 분야 용어 및 다음절 단어의 의미를 구별하는 정확도를 크게 향상시킵니다.

Original Abstract

This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.

1 Citations
0 Influential
11.5 Altmetric
58.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!