2604.10065v1 Apr 11, 2026 cs.CL

ASPIRin: 상호작용 최적화를 위한 강화 학습에서 동작 공간 투영: 풀 듀플렉스 음성 언어 모델

ASPIRin: Action Space Projection for Interactivity-Optimized Reinforcement Learning in Full-Duplex Speech Language Models

Chi-Yuan Hsiao
Chi-Yuan Hsiao
Citations: 219
h-index: 6
Hsiao-Tsung Hung
Hsiao-Tsung Hung
Citations: 85
h-index: 4
Hung-yi Lee
Hung-yi Lee
Citations: 8
h-index: 2
Ke-Han Lu
Ke-Han Lu
Citations: 0
h-index: 0
Yuzhuo Fu
Yuzhuo Fu
Citations: 71
h-index: 2
Guan-Ting Lin
Guan-Ting Lin
National Taiwan University
Citations: 1,648
h-index: 11

종단 간 풀 듀플렉스 음성 언어 모델(SLM)은 자연스러운 상호작용을 위해 정확한 발화 교대가 필요합니다. 그러나, 기존의 원시 토큰 기반 강화 학습(RL)을 통해 시간적 동역학을 최적화하면 의미 품질이 저하되어 심각한 생성 오류 및 반복 현상이 발생합니다. 본 연구에서는, 발화 시점과 발화 내용을 명시적으로 분리하는 상호작용 최적화 강화 학습 프레임워크인 ASPIRin을 제안합니다. ASPIRin은 동작 공간 투영을 사용하여 텍스트 어휘를 조잡한 이진 상태(발화 상태 vs. 침묵 상태)로 매핑합니다. 그룹 상대 정책 최적화(GRPO)를 규칙 기반 보상과 함께 적용하여 사용자 중단 및 응답 지연을 균형 있게 조정합니다. 실험 결과, ASPIRin은 발화 교대, 백채널링, 일시 정지 처리 등 다양한 측면에서 상호작용을 최적화합니다. 특히, 타이밍을 토큰 선택과 분리함으로써 의미 일관성을 유지하고 표준 GRPO에 비해 중복 n-그램의 비율을 50% 이상 감소시켜, 퇴화적 반복 현상을 효과적으로 제거합니다.

Original Abstract

End-to-end full-duplex Speech Language Models (SLMs) require precise turn-taking for natural interaction. However, optimizing temporal dynamics via standard raw-token reinforcement learning (RL) degrades semantic quality, causing severe generative collapse and repetition. We propose ASPIRin, an interactivity-optimized RL framework that explicitly decouples when to speak from what to say. Using Action Space Projection, ASPIRin maps the text vocabulary into a coarse-grained binary state (active speech vs. inactive silence). By applying Group Relative Policy Optimization (GRPO) with rule-based rewards, it balances user interruption and response latency. Empirical evaluations show ASPIRin optimizes interactivity across turn-taking, backchanneling, and pause handling. Crucially, isolating timing from token selection preserves semantic coherence and reduces the portion of duplicate n-grams by over 50% compared to standard GRPO, effectively eliminating degenerative repetition.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!