MoVE: 음성-음성 번역에서 발화 전문가 결합을 통한 웃음과 울음 표현
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
최근 음성-음성 번역(S2ST) 시스템은 높은 의미 정확도를 달성하지만, 비언어적 발화(NV), 즉 의사소통 의도를 전달하는 웃음이나 울음과 같은 표현을 일관되게 제거하여 실제 활용성에 심각한 제한을 둡니다. 본 연구에서는 세 가지 기여를 통해 이러한 문제를 해결하고자 합니다. 첫째, 데이터 부족 문제를 극복하기 위한 확장 가능한 표현 데이터셋 구축 파이프라인을 제안합니다. 둘째, 표현에 특화된 어댑터와 소프트-웨이팅 라우터를 사용하여 하이브리드 표현 상태를 포착하는 Mixture-of-LoRA-Experts 아키텍처인 MoVE를 제안합니다. 셋째, 사전 훈련된 오디오 LLM을 활용하여 놀라운 데이터 효율성을 보여줍니다. 큐레이션된 30분의 데이터만으로도 강력한 성능을 달성할 수 있습니다. 영어-중국어 S2ST에서, 강력한 기준 모델과 비교했을 때, MoVE는 대상 NV를 76%의 경우에 재현하며, 비교된 모든 시스템 중 가장 높은 수준의 자연스러움과 감정 충실도를 달성했습니다. 기존 S2ST 시스템은 최대 14%의 NV만 보존하는 반면, MoVE는 훨씬 높은 수준의 표현력을 제공합니다.
Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.