2601.19922v2 Jan 09, 2026 cs.CL

HEART: 인간과 LLM의 감정적 지원 대화 능력을 평가하기 위한 통합 벤치마크

HEART: A Unified Benchmark for Assessing Humans and LLMs in Emotional Support Dialogue

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Sanmi Koyejo
Sanmi Koyejo
Citations: 3,513
h-index: 21
Kriti Aggarwal
Kriti Aggarwal
Citations: 80
h-index: 2
Gail D. Heyman
Gail D. Heyman
Citations: 189
h-index: 3
Desmond C. Ong
Desmond C. Ong
Citations: 673
h-index: 10
Subhabrata Mukherjee
Subhabrata Mukherjee
Citations: 274
h-index: 4

감정적 지원 대화는 언어 유창성 이상의 기술, 즉 감정 이해, 어조 조절, 그리고 저항, 좌절, 또는 고통스러운 순간에 대한 대응 능력을 필요로 합니다. 언어 모델의 빠른 발전에도 불구하고, 이러한 대인 관계 분야에서 인간과 LLM의 능력을 비교할 수 있는 명확한 방법은 아직 부족합니다. 본 연구에서는 인간과 LLM을 동일한 다중 턴 감정적 지원 대화에서 직접적으로 비교하는 최초의 프레임워크인 HEART를 소개합니다. 각 대화 기록에 대해, 인간과 모델의 응답을 쌍으로 묶고, 익명 평가자들과 LLM-기반 평가 시스템을 통해 평가합니다. 모든 평가는 인간 관계 과학에 기반한 5가지 차원(인간과의 조화, 공감적 반응성, 공감, 울림, 과제 수행)에 대한 평가 기준을 따릅니다. HEART는 주목할 만한 행동 패턴을 밝혀냅니다. 몇몇 최첨단 모델은 인간의 평균적인 응답 수준에 근접하거나 능가하는 공감 능력과 일관성을 보이는 반면, 인간은 여전히 적응적 재구성, 긴장 해소, 그리고 미묘한 어조 변화 능력에서 우위를 점하며, 특히 논쟁적인 대화에서 이러한 강점이 두드러집니다. 인간과 LLM-기반 평가 시스템은 쌍별 비교의 약 80%에서 유사한 선호도를 보이며, 이는 인간 간의 합의 수준과 일치합니다. 또한, 두 시스템 모두 평가 이유를 제시할 때 유사한 HEART 차원을 강조합니다. 이러한 경향은 감정적 지원의 품질을 평가하는 기준이 융합되는 것을 시사합니다. HEART는 인간과 모델을 동등한 위치에 놓고, 감정적 지원 대화를 일반적인 추론 또는 언어 유창성과 분리된 별도의 능력 영역으로 재정의합니다. 이를 통해 모델이 생성하는 지원이 인간의 사회적 판단과 어떻게 일치하고 어떻게 다른지, 그리고 모델 크기에 따라 감정적 대화 능력이 어떻게 변화하는지에 대한 통합적인 경험적 기반을 제공합니다.

Original Abstract

Supportive conversation depends on skills that go beyond language fluency, including reading emotions, adjusting tone, and navigating moments of resistance, frustration, or distress. Despite rapid progress in language models, we still lack a clear way to understand how their abilities in these interpersonal domains compare to those of humans. We introduce HEART, the first-ever framework that directly compares humans and LLMs on the same multi-turn emotional-support conversations. For each dialogue history, we pair human and model responses and evaluate them through blinded human raters and an ensemble of LLM-as-judge evaluators. All assessments follow a rubric grounded in interpersonal communication science across five dimensions: Human Alignment, Empathic Responsiveness, Attunement, Resonance, and Task-Following. HEART uncovers striking behavioral patterns. Several frontier models approach or surpass the average human responses in perceived empathy and consistency. At the same time, humans maintain advantages in adaptive reframing, tension-naming, and nuanced tone shifts, particularly in adversarial turns. Human and LLM-as-judge preferences align on about 80 percent of pairwise comparisons, matching inter-human agreement, and their written rationales emphasize similar HEART dimensions. This pattern suggests an emerging convergence in the criteria used to assess supportive quality. By placing humans and models on equal footing, HEART reframes supportive dialogue as a distinct capability axis, separable from general reasoning or linguistic fluency. It provides a unified empirical foundation for understanding where model-generated support aligns with human social judgment, where it diverges, and how affective conversational competence scales with model size.

0 Citations
0 Influential
10.5 Altmetric
52.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!