다층 인지 기반의 대화 행동 모델링을 위한 기초 모델
Conversational Behavior Modeling Foundation Model With Multi-Level Perception
인간의 대화는 시간 순서에 따라 나타나는 생각의 연쇄로 구성됩니다. 이러한 인지 과정을 파악하는 것은 자연스러운 양방향 대화 시스템을 구축하는 데 핵심적입니다. 본 연구에서는 이 과정을 다층 인지로 모델링하고, Graph-of-Thoughts (GoT)를 통해 대화 행동을 추론하는 프레임워크를 소개합니다. 저희의 접근 방식은 의도-행동 경로를 계층적 라벨링 방식으로 공식화하여, 고수준의 의사소통 의도와 저수준의 발화 행위를 예측함으로써 이들의 인과적 및 시간적 의존성을 학습합니다. 이 시스템을 훈련하기 위해, 제어 가능하고 이벤트가 풍부한 대화 데이터를 인간이 주석을 단 데이터와 결합한 고품질 코퍼스를 개발했습니다. GoT 프레임워크는 스트리밍 예측을 진화하는 그래프로 구조화하여, 트랜스포머가 다음 발화 행위를 예측하고, 의사 결정에 대한 간결한 근거를 생성하며, 추론 과정을 동적으로 개선할 수 있도록 합니다. 합성 및 실제 양방향 대화에 대한 실험 결과, 본 프레임워크는 견고한 행동 감지 성능을 제공하고, 해석 가능한 추론 체인을 생성하며, 양방향 음성 대화 시스템에서 대화 추론을 위한 기반을 마련한다는 것을 보여줍니다.
Human conversation is organized by an implicit chain of thoughts that manifests as timed speech acts. Capturing this perceptual pathway is key to building natural full-duplex interactive systems. We introduce a framework that models this process as multi-level perception, and then reasons over conversational behaviors via a Graph-of-Thoughts (GoT). Our approach formalizes the intent-to-action pathway with a hierarchical labeling scheme, predicting high-level communicative intents and low-level speech acts to learn their causal and temporal dependencies. To train this system, we develop a high quality corpus that pairs controllable, event-rich dialogue data with human-annotated labels. The GoT framework structures streaming predictions as an evolving graph, enabling a transformer to forecast the next speech act, generate concise justifications for its decisions, and dynamically refine its reasoning. Experiments on both synthetic and real duplex dialogues show that the framework delivers robust behavior detection, produces interpretable reasoning chains, and establishes a foundation for benchmarking conversational reasoning in full duplex spoken dialogue systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.