2601.12205v1 Jan 18, 2026 cs.SD

신경 코덱은 일반화될 수 있는가? 새로운 언어와 비음성 작업에 대한 통제된 연구

Do Neural Codecs Generalize? A Controlled Study Across Unseen Languages and Non-Speech Tasks

Jinchuan Tian
Jinchuan Tian
Citations: 848
h-index: 14
Shi Wang
Shi Wang
Citations: 234
h-index: 5
Jiatong Shi
Jiatong Shi
Citations: 132
h-index: 8
Haibin Wu
Haibin Wu
Citations: 200
h-index: 3
Shinji Watanabe
Shinji Watanabe
Citations: 81
h-index: 3

본 논문은 신경 오디오 코덱(NAC)의 일반화 능력에 대한 세 가지 중요한 측면을 조사합니다. (i) NAC가 사전 학습 과정에서 새로운 언어에 대해 얼마나 잘 일반화되는지, (ii) 음성 데이터만으로 사전 학습된 NAC가 환경 소리, 음악, 동물 소리 등과 같은 비음성 애플리케이션에 얼마나 효과적으로 일반화되는지, (iii) 사전 학습 과정에서 비음성 데이터를 포함하는 것이 음성과 비음성 작업 모두의 성능을 향상시키는지 여부를 다룹니다. 기존 연구는 일반적으로 비교를 위해 상용 NAC를 사용하는데, 이는 구현의 차이로 인해 통찰력을 제한합니다. 본 연구에서는 엄격하게 통제된 구성과 신중하게 선별된 사전 학습 데이터를 사용하여 NAC를 처음부터 학습시켜 공정한 비교를 가능하게 했습니다. 11가지 지표를 사용하여 NAC의 신호 재구성 품질 및 다운스트림 애플리케이션 성능에 대한 종합적인 평가를 수행했습니다. 그 결과, NAC는 사전 학습 과정에서 새로운 언어에 대해 일반화될 수 있으며, 음성 데이터만으로 사전 학습된 NAC는 비음성 작업에서 성능이 저하되는 경향이 있으며, 사전 학습 과정에서 비음성 데이터를 포함하면 비음성 작업의 성능을 향상시키면서 음성 작업의 성능은 비교적 유지되는 것을 확인했습니다.

Original Abstract

This paper investigates three crucial yet underexplored aspects of the generalization capabilities of neural audio codecs (NACs): (i) whether NACs can generalize to unseen languages during pre-training, (ii) whether speech-only pre-trained NACs can effectively generalize to non-speech applications such as environmental sounds, music, and animal vocalizations, and (iii) whether incorporating non-speech data during pre-training can improve performance on both speech and non-speech tasks. Existing studies typically rely on off-the-shelf NACs for comparison, which limits insight due to variations in implementation. In this work, we train NACs from scratch using strictly controlled configurations and carefully curated pre-training data to enable fair comparisons. We conduct a comprehensive evaluation of NAC performance on both signal reconstruction quality and downstream applications using 11 metrics. Our results show that NACs can generalize to unseen languages during pre-training, speech-only pre-trained NACs exhibit degraded performance on non-speech tasks, and incorporating non-speech data during pre-training improves performance on non-speech tasks while maintaining comparable performance on speech tasks.

1 Citations
0 Influential
7 Altmetric
36.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!