2601.01554v5 Jan 04, 2026 cs.SD

MOSS Transcribe Diarize 기술 보고서

MOSS Transcribe Diarize Technical Report

Mo Yu
Mo Yu
Citations: 13
h-index: 2
Zheng-Yu Lin
Zheng-Yu Lin
Citations: 0
h-index: 0
Chenchen Yang
Chenchen Yang
Citations: 9
h-index: 1
Yiyan Zhang
Yiyan Zhang
Citations: 6
h-index: 2
Hanfu Chen
Hanfu Chen
Citations: 3
h-index: 1
Jingqin Chen
Jingqin Chen
Citations: 38
h-index: 2
Ke Chen
Ke Chen
Citations: 43
h-index: 2
Liwei Fan
Liwei Fan
Citations: 9
h-index: 1
Yi Jiang
Yi Jiang
Citations: 19
h-index: 3
Jie Zhu
Jie Zhu
Citations: 18
h-index: 3
Muchen Li
Muchen Li
Citations: 44
h-index: 3
Wenxuan Wang
Wenxuan Wang
Citations: 33
h-index: 4
Yang Wang
Yang Wang
Citations: 4
h-index: 1
Zhe Xu
Zhe Xu
Citations: 0
h-index: 0
Yitian Gong
Yitian Gong
Citations: 30
h-index: 2
Yuqian Zhang
Yuqian Zhang
Citations: 11
h-index: 2
Wenbo Zhang
Wenbo Zhang
Citations: 4
h-index: 1
Zhaoye Fei
Zhaoye Fei
Citations: 736
h-index: 11
Songlin Wang
Songlin Wang
Citations: 0
h-index: 0
Zhiyun Wu
Zhiyun Wu
Citations: 1
h-index: 1
Qinyuan Cheng
Qinyuan Cheng
Fudan Universality
Citations: 595
h-index: 14
Shimin Li
Shimin Li
Citations: 282
h-index: 10
Xipeng Qiu
Xipeng Qiu
Citations: 139
h-index: 6

화자 정보를 포함하고 시간 정보를 포함하는 음성 기록(Speaker-Attributed, Time-Stamped Transcription, SATS)은 발화 내용을 기록하고 각 화자의 발화 시간을 정확하게 파악하는 것을 목표로 하며, 특히 회의 기록에 매우 유용합니다. 기존 SATS 시스템은 종종 엔드투엔드 방식으로 구현되지 않으며, 제한된 컨텍스트 창, 취약한 장거리 화자 기억, 그리고 시간 정보 출력이 불가능하다는 단점을 가지고 있습니다. 이러한 한계점을 극복하기 위해, 저희는 화자 정보를 포함하고 시간 정보를 포함하는 음성 기록을 엔드투엔드 방식으로 통합적으로 수행하는 다중 모달 대규모 언어 모델인 MOSS Transcribe Diarize를 제안합니다. MOSS Transcribe Diarize는 방대한 실제 데이터를 기반으로 학습되었으며, 최대 90분 길이의 입력에 대해 128k의 컨텍스트 창을 제공하여 확장성이 뛰어나고 안정적인 성능을 보입니다. 다양한 평가 결과, MOSS Transcribe Diarize는 여러 공개 및 자체 개발 벤치마크에서 최첨단 상용 시스템보다 우수한 성능을 보여줍니다.

Original Abstract

Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.

1 Citations
0 Influential
7 Altmetric
36.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!