LTS-VoiceAgent: 의미 기반 트리거링 및 점진적 추론을 통한 효율적인 실시간 음성 인터랙션을 위한 청취-사고-발화 프레임워크
LTS-VoiceAgent: A Listen-Think-Speak Framework for Efficient Streaming Voice Interaction via Semantic Triggering and Incremental Reasoning
실시간 음성 에이전트는 딜레마에 직면합니다. 엔드 투 엔드 모델은 종종 심층적인 추론 능력이 부족하고, 파이프라인 방식은 ASR, LLM 추론, TTS를 순차적으로 실행하여 지연 시간이 길어집니다. 이는 인간의 대화와 달리, 청취자가 화자가 말을 마치기도 전에 생각하기 시작하는 것과는 대조적입니다. 복잡한 작업에는 여전히 파이프라인 아키텍처가 주로 사용되므로, 기존의 스트리밍 전략은 고정된 청크 또는 VAD 기반 분할과 같은 기계적인 분할 또는 예측 생성 방식을 통해 이러한 지연 시간을 줄이려고 시도합니다. 그러나 이러한 방식은 종종 의미 있는 단위를 파괴하거나 되돌려야 하는 예측에 불필요한 계산을 수행하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 청취 시점을 명시적으로 분리하고 점진적인 추론 방식을 사용하는 청취-사고-발화 프레임워크인 LTS-VoiceAgent를 제안합니다. LTS-VoiceAgent는 의미 있는 접두사를 감지하는 동적 의미 기반 트리거와, 상태 유지 기능을 담당하는 백그라운드 '사고' 모듈과 예측적인 해결 기능을 담당하는 전방위 '발화' 모듈을 조정하는 양방향 스트림 오케스트레이터를 특징으로 합니다. 이러한 병렬 설계는 응답을 차단하지 않고 '말하면서 생각하는' 기능을 가능하게 합니다. 또한, 자연스러운 불완전성을 포함하는 Pause-and-Repair 벤치마크를 도입하여 스트리밍의 안정성을 테스트합니다. VERA, Spoken-MQA, BigBenchAudio 및 자체 벤치마크를 사용한 실험 결과, LTS-VoiceAgent는 기존의 순차적 파이프라인 모델 및 기존의 스트리밍 전략보다 정확도, 지연 시간 및 효율성 측면에서 더 나은 성능을 보였습니다.
Real-time voice agents face a dilemma: end-to-end models often lack deep reasoning, while cascaded pipelines incur high latency by executing ASR, LLM reasoning, and TTS strictly in sequence, unlike human conversation where listeners often start thinking before the speaker finishes. Since cascaded architectures remain the dominant choice for complex tasks, existing cascaded streaming strategies attempt to reduce this latency via mechanical segmentation (e.g., fixed chunks, VAD-based splitting) or speculative generation, but they frequently either break semantic units or waste computation on predictions that must be rolled back. To address these challenges, we propose LTS-VoiceAgent, a Listen-Think-Speak framework that explicitly separates when to think from how to reason incrementally. It features a Dynamic Semantic Trigger to detect meaningful prefixes, and a Dual-Role Stream Orchestrator that coordinates a background Thinker (for state maintenance) and a foreground Speaker (for speculative solving). This parallel design enables "thinking while speaking" without blocking responses. We also introduce a Pause-and-Repair benchmark containing natural disfluencies to stress-test streaming robustness. Experiments across VERA, Spoken-MQA, BigBenchAudio, and our benchmark show that LTS-VoiceAgent achieves a stronger accuracy-latency-efficiency trade-off than serial cascaded baselines and existing streaming strategies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.