MoST: 모달리티 인식 혼합 전문가 모델을 이용한 음성 및 텍스트 결합
MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts
본 논문에서는 MoST(Mixture of Speech and Text)라는 새로운 다중 모달 대규모 언어 모델을 제시합니다. MoST는 제안하는 모달리티 인식 혼합 전문가(MAMoE) 아키텍처를 통해 음성과 텍스트 처리를 완벽하게 통합합니다. 기존의 다중 모달 모델은 다양한 모달리티 표현을 동일한 파라미터로 처리하며, 모달리티 고유의 표현 차이를 무시하는 경향이 있습니다. 우리는 입력 유형에 따라 토큰을 해당 모달리티에 적합한 전문가에게 전달하는 특수 라우팅 경로를 도입했습니다. MAMoE는 모달리티별 학습과 교차 모달 이해를 향상시키기 위해 두 가지 상호 보완적인 구성 요소를 사용합니다. 첫째는 도메인별 패턴을 캡처하는 모달리티별 전문가 그룹이고, 둘째는 모달리티 간 정보 전달을 촉진하는 공유 전문가입니다. 이러한 아키텍처를 기반으로, 우리는 사전 훈련된 MoE 언어 모델을 ASR(음성 인식) 및 TTS(텍스트 음성 변환) 데이터 세트에 대한 전략적 후속 훈련을 통해 적응시키는 효율적인 변환 파이프라인을 개발했습니다. 이 파이프라인의 핵심 특징은 강력한 성능과 데이터 효율성을 달성하기 위해 완전히 공개된 오픈 소스 데이터 세트만 사용한다는 것입니다. ASR, TTS, 오디오 언어 모델링 및 음성 질의응답 벤치마크에 대한 종합적인 평가 결과, MoST는 비교 가능한 파라미터 수를 가진 기존 모델보다 일관되게 우수한 성능을 보였습니다. Ablation 연구 결과, 모달리티별 라우팅 메커니즘과 공유 전문가 설계가 모든 테스트 도메인에서 성능 향상에 크게 기여한다는 것을 확인했습니다. 현재까지 알려진 바로는, MoST는 혼합 전문가 아키텍처를 기반으로 구축된 최초의 완전한 오픈 소스 음성-텍스트 LLM입니다. (참고: MoST 모델, 훈련 코드, 추론 코드 및 훈련 데이터는 https://github.com/NUS-HPC-AI-Lab/MoST 에서 제공됩니다.)
We present MoST (Mixture of Speech and Text), a novel multimodal large language model that seamlessly integrates speech and text processing through our proposed Modality-Aware Mixture of Experts (MAMoE) architecture. While current multimodal models typically process diverse modality representations with identical parameters, disregarding their inherent representational differences, we introduce specialized routing pathways that direct tokens to modality-appropriate experts based on input type. MAMoE simultaneously enhances modality-specific learning and cross-modal understanding through two complementary components: modality-specific expert groups that capture domain-specific patterns and shared experts that facilitate information transfer between modalities. Building on this architecture, we develop an efficient transformation pipeline that adapts the pretrained MoE language model through strategic post-training on ASR and TTS datasets, followed by fine-tuning with a carefully curated speech-text instruction dataset. A key feature of this pipeline is that it relies exclusively on fully accessible, open-source datasets to achieve strong performance and data efficiency. Comprehensive evaluations across ASR, TTS, audio language modeling, and spoken question answering benchmarks show that MoST consistently outperforms existing models of comparable parameter counts. Our ablation studies confirm that the modality-specific routing mechanism and shared experts design significantly contribute to performance gains across all tested domains. To our knowledge, MoST represents the first fully open-source speech-text LLM built on a Mixture of Experts architecture. \footnote{We release MoST model, training code, inference code, and training data at https://github.com/NUS-HPC-AI-Lab/MoST
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.