2604.11096v1 Apr 13, 2026 cs.CL

교차 언어 음성 언어 모델을 위한 효율적인 학습 방법

Efficient Training for Cross-lingual Speech Language Models

Yunqi Hong
Yunqi Hong
Citations: 7
h-index: 2
Qingkai Fang
Qingkai Fang
Citations: 771
h-index: 14
Yan Zhou
Yan Zhou
Citations: 7
h-index: 2
Yang Feng
Yang Feng
Citations: 672
h-index: 13

현재, 대규모 언어 모델(LLM)은 주로 텍스트 모달리티에 초점을 맞추고 있습니다. 보다 자연스러운 인간-AI 상호작용을 가능하게 하기 위해 음성 LLM이 등장하고 있지만, 제한된 데이터와 더 많은 언어로 확장하기 어려운 문제로 인해 효과적인 엔드 투 엔드 음성 LLM을 구축하는 것은 여전히 어려운 과제입니다. 본 논문에서는 이산적인 음성 토큰을 기반으로 교차 언어 음성 LLM을 위한 효율적인 학습 방법인 Cross-lingual Speech Language Model (CSLM)을 소개합니다. 우리는 지속적인 사전 학습을 통해 교차 모달 및 교차 언어 정렬을 달성하는 새로운 정렬 전략을 제안합니다. 음성-텍스트 교차 모달 생성 과정을 통해 지시 사항에 따른 미세 조정을 수행함으로써, 더욱 세밀한 수준에서 모달 정렬을 강화하여 생성 품질을 향상시키고 지연 시간을 줄입니다. CSLM은 방대한 음성 데이터 없이 다양한 모달리티와 언어를 동시에 정렬할 수 있으므로, 뛰어난 언어 확장성을 보여줍니다. 교차 모달 작업, 단일 언어 대화 작업, 그리고 교차 언어 대화 작업에 대한 평가 결과는 CSLM의 강력한 교차 모달 정렬 능력과 일반적인 작업 능력을 입증합니다. (코드: https://github.com/ictnlp/CSLM)

Original Abstract

Currently, large language models (LLMs) predominantly focus on the text modality. To enable more natural human-AI interaction, speech LLMs are emerging, but building effective end-to-end speech LLMs remains challenging due to limited data and the difficulty in expanding to more languages. In this paper, we introduce Cross-lingual Speech Language Model (CSLM), an efficient training method for cross-lingual speech LLMs based on discrete speech tokens. We propose a novel alignment strategy that achieves cross-modal and cross-lingual alignment through continual pre-training. By conducting instruction fine-tuning following a speech-text interleaved chain-of-modality generation process, we enhance modal alignment at a finer granularity, thereby improving generation quality and reducing latency. CSLM aligns different modalities and languages simultaneously without the need for massive speech data, thus exhibiting good language scalability. Evaluations on cross-modal tasks, mono-lingual conversational tasks, and cross-lingual conversational tasks demonstrate CSLM's strong cross-modal alignment capabilities and general task abilities. (Code is available at: https://github.com/ictnlp/CSLM)

1 Citations
0 Influential
36.729550745277 Altmetric
184.6 Score
Original PDF
6

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!