Voxtral Realtime: 실시간 자동 음성 인식 모델
Voxtral Realtime
본 논문에서는 Voxtral Realtime을 소개합니다. Voxtral Realtime은 오프라인 전사 품질과 동등한 수준의 성능을 1초 미만의 지연 시간으로 제공하는, 스트리밍 방식으로 동작하는 자동 음성 인식 모델입니다. 기존 방식들이 청킹(chunking) 또는 슬라이딩 윈도우(sliding window)를 통해 오프라인 모델을 개선하는 것과는 달리, Voxtral Realtime은 오디오 및 텍스트 스트림 간의 명시적인 정렬을 통해 엔드투엔드(end-to-end) 방식으로 스트리밍에 최적화되어 학습되었습니다. 본 연구에서는 지연 조건(delay conditioning)을 개선하기 위해 새로운 인과적 오디오 인코더(causal audio encoder)와 Ada RMS-Norm을 도입한 Delayed Streams Modeling 프레임워크를 기반으로 합니다. 또한, 13개 언어에 걸친 대규모 데이터셋을 활용하여 사전 학습을 수행했습니다. 480ms의 지연 시간에서 Voxtral Realtime은 널리 사용되는 오프라인 전사 시스템인 Whisper와 동등한 성능을 달성합니다. 모델 가중치는 Apache 2.0 라이선스에 따라 공개됩니다.
We introduce Voxtral Realtime, a natively streaming automatic speech recognition model that matches offline transcription quality at sub-second latency. Unlike approaches that adapt offline models through chunking or sliding windows, Voxtral Realtime is trained end-to-end for streaming, with explicit alignment between audio and text streams. Our architecture builds on the Delayed Streams Modeling framework, introducing a new causal audio encoder and Ada RMS-Norm for improved delay conditioning. We scale pretraining to a large-scale dataset spanning 13 languages. At a delay of 480ms, Voxtral Realtime achieves performance on par with Whisper, the most widely deployed offline transcription system. We release the model weights under the Apache 2.0 license.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.