2601.09239v2 Jan 14, 2026 cs.SD

DSA-Tokenizer: 플로우 매칭 기반 계층적 융합을 통한 분리된 의미-음향 토큰화

DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion

Hanlin Zhang
Hanlin Zhang
Citations: 19
h-index: 2
Daxin Tan
Daxin Tan
Citations: 69
h-index: 2
Dehua Tao
Dehua Tao
Citations: 2
h-index: 1
Xiao Chen
Xiao Chen
Citations: 77
h-index: 3
Haochen Tan
Haochen Tan
Citations: 98
h-index: 4
Yunhe Li
Yunhe Li
Citations: 15
h-index: 2
Yuchen Cao
Yuchen Cao
Citations: 304
h-index: 6
Jianping Wang
Jianping Wang
Citations: 3
h-index: 1
Linqi Song
Linqi Song
Citations: 69
h-index: 2

음성 토큰화기는 이산형 음성 거대 언어 모델(Speech LLM)의 핵심 구성 요소입니다. 기존 토큰화기는 의미 인코딩을 우선시하거나, 의미 정보와 음향 스타일을 분리하지 않고 융합하거나, 불완전한 의미-음향 분리를 달성합니다. 더 나은 분리를 달성하기 위해, 우리는 명시적으로 음성을 이산적인 의미 토큰과 음향 토큰으로 분리하는 DSA-Tokenizer를 제안합니다. 구체적으로, 의미 토큰은 음성 인식(ASR)을 통해 언어 내용을 학습하고, 음향 토큰은 멜-스펙트로그램 복원을 통해 스타일을 인코딩하는 데 중점을 둡니다. 두 시퀀스 간의 경직된 길이 제약을 없애기 위해, 음성 생성 품질을 더욱 향상시키는 계층적 플로우 매칭 디코더를 도입했습니다. 또한, 분리를 강화하기 위해 공동 복원-재조합 학습 전략을 사용합니다. DSA-Tokenizer는 강력한 분리를 통해 높은 충실도의 복원과 유연한 재조합을 가능하게 하여, 음성 LLM에서 제어 가능한 생성을 지원합니다. 우리의 분석은 분리된 토큰화가 향후 음성 모델링의 중요한 패러다임임을 강조합니다. 오디오 샘플은 https://anonymous.4open.science/w/DSA_Tokenizer_demo/ 에서 확인할 수 있으며, 코드와 모델은 논문이 채택된 후 공개될 예정입니다.

Original Abstract

Speech tokenizers serve as the cornerstone of discrete Speech Large Language Models (Speech LLMs). Existing tokenizers either prioritize semantic encoding, fuse semantic content with acoustic style inseparably, or achieve incomplete semantic-acoustic disentanglement. To achieve better disentanglement, we propose DSA-Tokenizer, which explicitly disentangles speech into discrete semantic and acoustic tokens via distinct optimization constraints. Specifically, semantic tokens are supervised by ASR to capture linguistic content, while acoustic tokens focus on mel-spectrograms restoration to encode style. To eliminate rigid length constraints between the two sequences, we introduce a hierarchical Flow-Matching decoder that further improve speech generation quality. Furthermore, We employ a joint reconstruction-recombination training strategy to enforce this separation. DSA-Tokenizer enables high fidelity reconstruction and flexible recombination through robust disentanglement, facilitating controllable generation in speech LLMs. Our analysis highlights disentangled tokenization as a pivotal paradigm for future speech modeling. Audio samples are avaialble at https://anonymous.4open.science/w/DSA_Tokenizer_demo/. The code and model will be made publicly available after the paper has been accepted.

2 Citations
0 Influential
3 Altmetric
17.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!