VIBEVOICE-ASR 기술 보고서
VIBEVOICE-ASR Technical Report
본 보고서는 VibeVoice를 기반으로 구축된, 범용 음성 이해 프레임워크인 VibeVoice-ASR을 소개합니다. VibeVoice-ASR은 최근 단문 음성 인식 기술의 발전에도 불구하고 여전히 해결해야 할 과제인, 긴 형태의 오디오(예: 회의, 팟캐스트)에서 발생하는 문맥 단편화 및 다중 화자 복잡성 문제를 해결하도록 설계되었습니다. 기존의 파이프라인 방식과 달리, VibeVoice-ASR은 최대 60분 분량의 오디오를 단일 단계로 처리할 수 있습니다. 또한, 음성 인식, 화자 분리, 타임스탬프 기능을 하나의 통합된 엔드-투-엔드 생성 작업으로 통합합니다. 더불어, VibeVoice-ASR은 50개 이상의 언어를 지원하며, 명시적인 언어 설정 없이도 작동하며, 발화 내외부의 코드 스위칭을 자연스럽게 처리합니다. 또한, 프롬프트 기반의 문맥 주입 메커니즘을 도입하여 사용자가 맞춤형 문맥 정보를 제공할 수 있도록 하여, 특정 분야 용어 및 다음절 단어의 의미를 구별하는 정확도를 크게 향상시킵니다.
This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.