2601.18184v1 Jan 26, 2026 cs.SD

VIBEVOICE-ASR 기술 보고서

VIBEVOICE-ASR Technical Report

Liang Wang
Liang Wang
Citations: 66
h-index: 4
Furu Wei
Furu Wei
Citations: 195
h-index: 6
Yi Zhu
Yi Zhu
Citations: 45
h-index: 4
Shaohan Huang
Shaohan Huang
Citations: 329
h-index: 5
Zhiliang Peng
Zhiliang Peng
Citations: 4,233
h-index: 14
Jianwei Yu
Jianwei Yu
Citations: 27
h-index: 2
Yaoyao Chang
Yaoyao Chang
Citations: 33
h-index: 3
Zilong Wang
Zilong Wang
Citations: 77
h-index: 3
Li Dong
Li Dong
Citations: 12
h-index: 2
Ying Hao
Ying Hao
Citations: 16
h-index: 2
Yujie Tu
Yujie Tu
Citations: 5
h-index: 1
Chenyu Yang
Chenyu Yang
Citations: 53
h-index: 4
Wenhui Wang
Wenhui Wang
Citations: 9,881
h-index: 23
Songcheng Xu
Songcheng Xu
Citations: 72
h-index: 3
Yutao Sun
Yutao Sun
Tsinghua University
Citations: 1,821
h-index: 12
Hangbo Bao
Hangbo Bao
Harbin Institute of Technology
Citations: 9,704
h-index: 17
Weijiang Xu
Weijiang Xu
Citations: 96
h-index: 4
Zehua Wang
Zehua Wang
Citations: 50
h-index: 3
Ting Song
Ting Song
Citations: 750
h-index: 8
Yan Xia
Yan Xia
Citations: 4
h-index: 1
Zewen Chi
Zewen Chi
Beijing Institute of Technology
Citations: 2,724
h-index: 18
Chuang Ding
Chuang Ding
Citations: 496
h-index: 7
Shuai Wang
Shuai Wang
Citations: 5
h-index: 1
Xie Chen
Xie Chen
Citations: 64
h-index: 2

본 보고서는 VibeVoice를 기반으로 구축된, 범용 음성 이해 프레임워크인 VibeVoice-ASR을 소개합니다. VibeVoice-ASR은 최근 단문 음성 인식 기술의 발전에도 불구하고 여전히 해결해야 할 과제인, 긴 형태의 오디오(예: 회의, 팟캐스트)에서 발생하는 문맥 단편화 및 다중 화자 복잡성 문제를 해결하도록 설계되었습니다. 기존의 파이프라인 방식과 달리, VibeVoice-ASR은 최대 60분 분량의 오디오를 단일 단계로 처리할 수 있습니다. 또한, 음성 인식, 화자 분리, 타임스탬프 기능을 하나의 통합된 엔드-투-엔드 생성 작업으로 통합합니다. 더불어, VibeVoice-ASR은 50개 이상의 언어를 지원하며, 명시적인 언어 설정 없이도 작동하며, 발화 내외부의 코드 스위칭을 자연스럽게 처리합니다. 또한, 프롬프트 기반의 문맥 주입 메커니즘을 도입하여 사용자가 맞춤형 문맥 정보를 제공할 수 있도록 하여, 특정 분야 용어 및 다음절 단어의 의미를 구별하는 정확도를 크게 향상시킵니다.

Original Abstract

This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.

4 Citations
1 Influential
11.5 Altmetric
63.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!