2604.08384v1 Apr 09, 2026 eess.AS

TASU2: 정밀 제어가 가능한 CTC 시뮬레이션을 활용한 음성 LLM의 정렬 및 저자원 적응

TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs

Jing Peng
Jing Peng
Citations: 106
h-index: 4
Kai Yu
Kai Yu
Citations: 150
h-index: 6
Chenghao Wang
Chenghao Wang
Citations: 29
h-index: 2
Yi Yang
Yi Yang
Citations: 45
h-index: 3
Lirong Qian
Lirong Qian
Citations: 1
h-index: 1
Yu Xi
Yu Xi
Citations: 22
h-index: 3
Junjie Li
Junjie Li
Citations: 2
h-index: 1
Shuai Wang
Shuai Wang
Citations: 145
h-index: 4

음성 LLM의 추가 훈련은 효율적인 교차 모드 정렬과 강력한 저자원 적응에 점점 더 의존하고 있지만, 대규모 오디오-텍스트 쌍을 수집하는 것은 여전히 비용이 많이 듭니다. TASU와 같은 텍스트 기반 정렬 방법은 텍스트 기록에서 CTC 사후 확률을 시뮬레이션하여 이러한 부담을 줄이지만, 불확실성과 오류율에 대한 제한적인 제어 기능을 제공하여 교육 과정 설계가 대부분 경험적인 방식으로 이루어집니다. 본 논문에서는 지정된 단어 오류율(WER) 범위 내에서 CTC 사후 확률 분포를 시뮬레이션하는 정밀 제어가 가능한 CTC 시뮬레이션 프레임워크인 **TASU2**를 제안합니다. 이는 음향 디코딩 인터페이스와 더 잘 일치하는 텍스트 기반의 지도 학습을 제공합니다. 이를 통해 TTS(Text-to-Speech)를 사용하지 않고도 지도 학습의 난이도를 점진적으로 변화시키는 체계적인 추가 훈련 과정을 설계할 수 있습니다. 다양한 소스-타겟 적응 설정에서 TASU2는 TASU보다 더 나은 성능을 보이며, 텍스트 기반 미세 조정 및 TTS 기반 증강과 같은 강력한 기존 방법보다 일관되게 우수한 성능을 보입니다. 또한 소스 도메인의 성능 저하를 완화하는 데 도움이 됩니다.

Original Abstract

Speech LLM post-training increasingly relies on efficient cross-modal alignment and robust low-resource adaptation, yet collecting large-scale audio-text pairs remains costly. Text-only alignment methods such as TASU reduce this burden by simulating CTC posteriors from transcripts, but they provide limited control over uncertainty and error rate, making curriculum design largely heuristic. We propose \textbf{TASU2}, a controllable CTC simulation framework that simulates CTC posterior distributions under a specified WER range, producing text-derived supervision that better matches the acoustic decoding interface. This enables principled post-training curricula that smoothly vary supervision difficulty without TTS. Across multiple source-to-target adaptation settings, TASU2 improves in-domain and out-of-domain recognition over TASU, and consistently outperforms strong baselines including text-only fine-tuning and TTS-based augmentation, while mitigating source-domain performance degradation.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!