2604.19635v1 Apr 21, 2026 cs.SD

자기 회귀 언어 모델의 청크 단위 교차 스플라이싱을 이용한 스트리밍 대상 화자 추출 연구

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

Hui Lu
Hui Lu
HCCL, The Chinese University of Hong Kong
Citations: 264
h-index: 9
Liyang Chen
Liyang Chen
Citations: 453
h-index: 11
Guiping Zhong
Guiping Zhong
Citations: 36
h-index: 3
Huimeng Wang
Huimeng Wang
Citations: 79
h-index: 5
Haiyun Li
Haiyun Li
Citations: 11
h-index: 2
Shiyin Kang
Shiyin Kang
Citations: 231
h-index: 5
Shu Peng
Shu Peng
Citations: 1
h-index: 1
Jiakui Li
Jiakui Li
Citations: 126
h-index: 6
Liangliang Cao
Liangliang Cao
Citations: 886
h-index: 5
Zhiyong Wu
Zhiyong Wu
Citations: 6
h-index: 1
Jinjiang Liu
Jinjiang Liu
Citations: 132
h-index: 7

생성 모델은 대상 화자 추출(TSE) 분야에서 새로운 성능 기준을 제시했지만, 이러한 모델들이 전역 맥락에 의존하는 특성 때문에 실시간 애플리케이션에 적용하기 어렵습니다. 스트리밍 환경에 직접 적용하려 할 때, 훈련 데이터와 스트리밍 추론 간의 심각한 불일치로 인해 추론 성능이 심각하게 저하되는 경우가 많습니다. 이러한 격차를 해소하기 위해, 본 연구에서는 스트리밍 TSE에 특화된 첫 번째 자기 회귀(AR) 모델을 제시합니다. 저희의 접근 방식은 청크 단위 교차 스플라이싱 패러다임을 도입하여 매우 효율적이고 안정적인 스트리밍 추론을 보장합니다. 추출된 음성 세그먼트 간의 일관성을 유지하기 위해, 과거 정보를 활용하여 경계 불연속성을 완화하는 과거 맥락 정제 메커니즘을 설계했습니다. Libri2Mix 데이터셋에 대한 실험 결과, AR 생성 모델의 기본 모델은 낮은 지연 시간에서 성능 저하를 보이지만, 저희의 접근 방식은 100%의 안정성과 우수한 가독성을 유지합니다. 또한, 저희의 스트리밍 결과는 오프라인 기준 모델과 비교하거나 능가하는 결과를 보여줍니다. 게다가, 저희 모델은 일반 소비자용 GPU에서 0.248의 실시간 계수(RTF)를 달성했습니다. 본 연구는 청크 단위 교차 스플라이싱 패러다임을 통해 AR 생성 모델이 지연 시간에 민감한 애플리케이션에 적용될 수 있다는 실증적 증거를 제공합니다.

Original Abstract

While generative models have set new benchmarks for Target Speaker Extraction (TSE), their inherent reliance on global context precludes deployment in real-time applications. Direct adaptation to streaming scenarios often leads to catastrophic inference performance degradation due to the severe mismatch between training and streaming inference. To bridge this gap, we present the first autoregressive (AR) models tailored for streaming TSE. Our approach introduces a Chunk-wise Interleaved Splicing Paradigm that ensures highly efficient and stable streaming inference. To ensure the coherence between the extracted speech segments, we design a historical context refinement mechanism that mitigates boundary discontinuities by leveraging historical information. Experiments on Libri2Mix show that while AR generative baseline exhibits performance degradation at low latencies, our approach maintains 100% stability and superior intelligibility. Furthermore, our streaming results are comparable to or even surpass offline baselines. Additionally, our model achieves a Real-Time-Factor (RTF) of 0.248 on consumer-level GPUs. This work provides empirical evidence that AR generative backbones are viable for latency-sensitive applications through the Chunk-wise Interleaved Splicing Paradigm.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!