2602.00327v1 Jan 30, 2026 cs.AI

SayNext-Bench: 왜 LLM은 다음 발화 예측에 어려움을 겪는가?

SayNext-Bench: Why Do LLMs Struggle with Next-Utterance Prediction?

Mengqi Zhang
Mengqi Zhang
Citations: 291
h-index: 4
Hao Tang
Hao Tang
Citations: 176
h-index: 6
Zheng Lian
Zheng Lian
Citations: 326
h-index: 7
Yueyi Yang
Yueyi Yang
Citations: 1
h-index: 1
Haotian Liu
Haotian Liu
Citations: 179
h-index: 8
Fang Kang
Fang Kang
Citations: 8
h-index: 1
Haoyu Chen
Haoyu Chen
Citations: 52
h-index: 2

본 연구는 대규모 언어 모델(LLM)을 활용하여 인간 대화에서의 다음 발화 예측 문제를 탐구합니다. 최근 LLM 기술의 발전으로 사용자와 자연스러운 대화를 수행할 수 있게 되었지만, 선도적인 모델조차도 인간 화자의 다음 발화를 예측하는 데 어려움을 겪는다는 것을 보여줍니다. 반면, 인간은 제스처, 시선, 감정 톤과 같은 다중 모달 정보를 활용하여 대화의 맥락 속에서 다가오는 발화를 쉽게 예측할 수 있습니다. LLM이 이러한 능력을 모방할 수 있는지 체계적으로 검증하기 위해, 다양한 실제 시나리오에서 다중 모달 정보를 기반으로 맥락에 맞는 응답을 예측하는 LLM과 다중 모달 LLM(MLLM)을 평가하는 벤치마크인 SayNext-Bench를 제안합니다. 이 벤치마크를 지원하기 위해, 풍부한 다중 모달 정보를 포함하는 대화 데이터셋인 SayNext-PC를 구축했습니다. 이를 바탕으로, 인지적 영감을 받아 대화에서의 예측적 처리 방식을 모방하는 새로운 MLLM인 SayNext-Chat을 개발했습니다. 실험 결과, 개발된 모델이 기존의 최첨단 MLLM보다 어휘 일치도, 의미 유사성, 감정 일관성 측면에서 우수한 성능을 보였습니다. 본 연구 결과는 LLM이 다중 모달 정보를 활용하여 다음 발화를 예측하는 것이 가능하다는 것을 입증하며, (i) 다중 모달 정보의 필수적인 역할과 (ii) 적극적인 예측적 처리가 자연스러운 인간 상호작용의 핵심이라는 점을 강조합니다. 현재의 MLLM에 이러한 요소가 부족하다는 점을 시사합니다. 본 연구가 인간 중심의 AI를 위한 더욱 인간과 유사하고 맥락에 민감한 AI 상호작용 연구의 새로운 지평을 열기를 기대합니다. 벤치마크와 모델은 https://saynext.github.io/ 에서 확인할 수 있습니다.

Original Abstract

We explore the use of large language models (LLMs) for next-utterance prediction in human dialogue. Despite recent advances in LLMs demonstrating their ability to engage in natural conversations with users, we show that even leading models surprisingly struggle to predict a human speaker's next utterance. Instead, humans can readily anticipate forthcoming utterances based on multimodal cues, such as gestures, gaze, and emotional tone, from the context. To systematically examine whether LLMs can reproduce this ability, we propose SayNext-Bench, a benchmark that evaluates LLMs and Multimodal LLMs (MLLMs) on anticipating context-conditioned responses from multimodal cues spanning a variety of real-world scenarios. To support this benchmark, we build SayNext-PC, a novel large-scale dataset containing dialogues with rich multimodal cues. Building on this, we further develop a dual-route prediction MLLM, SayNext-Chat, that incorporates cognitively inspired design to emulate predictive processing in conversation. Experimental results demonstrate that our model outperforms state-of-the-art MLLMs in terms of lexical overlap, semantic similarity, and emotion consistency. Our results prove the feasibility of next-utterance prediction with LLMs from multimodal cues and emphasize the (i) indispensable role of multimodal cues and (ii) actively predictive processing as the foundation of natural human interaction, which is missing in current MLLMs. We hope that this exploration offers a new research entry toward more human-like, context-sensitive AI interaction for human-centered AI. Our benchmark and model can be accessed at https://saynext.github.io/.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!