2601.13687v2 Jan 20, 2026 cs.AI

다인 그룹 대화에서 사회적 영향력을 유도하기 위한 정신 상태 이해

Understanding Mental States to Guide Social Influence in Multi-Person Group Dialogue

Zhichao Liang
Zhichao Liang
Citations: 34
h-index: 3
S. Nakamura
S. Nakamura
Citations: 236
h-index: 9

기존의 동적 마음 이론(Theory of Mind, ToM) 벤치마크는 주로 언어 모델을 수동적인 역할로 설정합니다. 모델은 연결된 시나리오의 순서를 읽고, 사람들이 믿고, 느끼고, 의도하며, 행동하는 것을 보고 이러한 상태 변화를 보고합니다. 실제 사회적 상호작용에서 ToM은 행동을 위해 사용되기도 합니다. 화자는 다른 사람의 정신 상태 경로를 목표 방향으로 이동시키기 위해 무엇을 말할지 계획합니다. 본 연구에서는 사회적 상호작용에서 마음을 추적하는 것에서 마음을 변화시키는 것으로 전환하는 벤치마크인 SocialMindChange를 소개합니다. 각 인스턴스는 4명의 등장인물과 다섯 개의 연결된 장면으로 구성된 사회적 맥락을 정의합니다. 모델은 하나의 등장인물을 연기하며, 다섯 장면 전체에 걸쳐 대화를 생성하여 목표를 달성하면서 동시에 모든 참여자의 진화하는 상태와 일관성을 유지해야 합니다. SocialMindChange는 또한 선택된 고차원적인 상태를 포함합니다. 구조화된 4단계 프레임워크를 사용하여 1,200개의 사회적 맥락을 구축했으며, 이는 6,000개의 시나리오와 90,000개 이상의 질문을 포함하며, 각 항목은 현실성과 품질에 대한 검증을 거쳤습니다. 최첨단 10개의 LLM에 대한 평가 결과, 평균 성능이 인간 성능보다 54.2% 낮은 것으로 나타났습니다. 이러한 격차는 현재 LLM이 여전히 긴 연결된 상호작용에서 정신 상태 표현을 유지하고 변경하는 데 어려움을 겪고 있음을 시사합니다.

Original Abstract

Existing dynamic Theory of Mind (ToM) benchmarks mostly place language models in a passive role: the model reads a sequence of connected scenarios and reports what people believe, feel, intend, and do as these states change. In real social interaction, ToM is also used for action: a speaker plans what to say in order to shift another person's mental-state trajectory toward a goal. We introduce SocialMindChange, a benchmark that moves from tracking minds to changing minds in social interaction. Each instance defines a social context with 4 characters and five connected scenes. The model plays one character and generates dialogue across the five scenes to reach the target while remaining consistent with the evolving states of all participants. SocialMindChange also includes selected higher-order states. Using a structured four-step framework, we construct 1,200 social contexts, covering 6000 scenarios and over 90,000 questions, each validated for realism and quality. Evaluations on ten state-of-the-art LLMs show that their average performance is 54.2% below human performance. This gap suggests that current LLMs still struggle to maintain and change mental-state representations across long, linked interactions.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!