말하거나 침묵하거나: 다자 대화에서의 상황 인지적 발언권 결정
Speak or Stay Silent: Context-Aware Turn-Taking in Multi-Party Dialogue
기존의 음성 AI 어시스턴트는 감지되는 모든 멈춤을 발언 기회로 간주합니다. 이는 양자 대화에서는 효과적일 수 있지만, AI 어시스턴트가 여러 명의 화자와 함께 참여하는 다자 대화 환경에서는 멈춤이 빈번하게 발생하며 의미가 모호합니다. 모든 멈춤마다 발언하는 어시스턴트는 유용함보다는 방해가 될 수 있습니다. 본 연구에서는 상황 인지적 발언권 결정 방식을 제안합니다. 저희 방법은 감지된 모든 멈춤에 대해 전체 대화 맥락을 고려하여 어시스턴트가 발언할지 침묵할지를 결정합니다. 저희는 세 개의 다자 대화 데이터셋을 포함하는 12만 건 이상의 레이블이 부착된 대화 데이터셋을 활용한 벤치마크를 소개합니다. 8개의 최신 대규모 언어 모델을 평가한 결과, 제로샷 프롬프팅 환경에서 이 모델들이 상황 인지적 발언권 결정에 일관되게 실패하는 것을 확인했습니다. 그 후, 추론 과정을 포함한 지도 학습 방식을 제안하여, 균형 잡힌 정확도를 최대 23%p까지 향상시켰습니다. 저희의 연구 결과는 상황 인지적 발언권 결정이 자연스럽게 나타나는 능력이 아니며, 명시적으로 훈련되어야 한다는 것을 시사합니다.
Existing voice AI assistants treat every detected pause as an invitation to speak. This works in dyadic dialogue, but in multi-party settings, where an AI assistant participates alongside multiple speakers, pauses are abundant and ambiguous. An assistant that speaks on every pause becomes disruptive rather than useful. In this work, we formulate context-aware turn-taking: at every detected pause, given the full conversation context, our method decides whether the assistant should speak or stay silent. We introduce a benchmark of over 120K labeled conversations spanning three multi-party corpora. Evaluating eight recent large language models, we find that they consistently fail at context-aware turn-taking under zero-shot prompting. We then propose a supervised fine-tuning approach with reasoning traces, improving balanced accuracy by up to 23 percentage points. Our findings suggest that context-aware turn-taking is not an emergent capability; it must be explicitly trained.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.