2604.17435v1 Apr 19, 2026 cs.CL

MoVE: 음성-음성 번역에서 발화 전문가 결합을 통한 웃음과 울음 표현

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

Yi-Cheng Lin
Yi-Cheng Lin
National Taiwan University
Citations: 534
h-index: 12
Hung-yi Lee
Hung-yi Lee
Citations: 409
h-index: 11
Szu-Chi Chen
Szu-Chi Chen
Citations: 13
h-index: 1
I-Ning Tsai
I-Ning Tsai
Citations: 6
h-index: 1
Sung-Feng Huang
Sung-Feng Huang
Citations: 320
h-index: 9

최근 음성-음성 번역(S2ST) 시스템은 높은 의미 정확도를 달성하지만, 비언어적 발화(NV), 즉 의사소통 의도를 전달하는 웃음이나 울음과 같은 표현을 일관되게 제거하여 실제 활용성에 심각한 제한을 둡니다. 본 연구에서는 세 가지 기여를 통해 이러한 문제를 해결하고자 합니다. 첫째, 데이터 부족 문제를 극복하기 위한 확장 가능한 표현 데이터셋 구축 파이프라인을 제안합니다. 둘째, 표현에 특화된 어댑터와 소프트-웨이팅 라우터를 사용하여 하이브리드 표현 상태를 포착하는 Mixture-of-LoRA-Experts 아키텍처인 MoVE를 제안합니다. 셋째, 사전 훈련된 오디오 LLM을 활용하여 놀라운 데이터 효율성을 보여줍니다. 큐레이션된 30분의 데이터만으로도 강력한 성능을 달성할 수 있습니다. 영어-중국어 S2ST에서, 강력한 기준 모델과 비교했을 때, MoVE는 대상 NV를 76%의 경우에 재현하며, 비교된 모든 시스템 중 가장 높은 수준의 자연스러움과 감정 충실도를 달성했습니다. 기존 S2ST 시스템은 최대 14%의 NV만 보존하는 반면, MoVE는 훨씬 높은 수준의 표현력을 제공합니다.

Original Abstract

Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.

1 Citations
0 Influential
6 Altmetric
31.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!