다중 턴 공감 대화에서의 담론 다양성
Discourse Diversity in Multi-Turn Empathic Dialogue
대규모 언어 모델(LLM)은 단일 턴 환경에서 높은 수준의 공감을 보이는 답변을 생성하는 것으로 평가받지만(Ayers et al., 2023; Lee et al., 2024), 동시에 동일한 어휘 패턴, 구문 틀, 담론 구조를 반복적으로 사용하는 형식적인 생성 모델이라는 문제점도 가지고 있습니다(Jiang et al., 2025; Shaib et al., 2024; Namuduri et al., 2025). 기존 연구는 이러한 형식성이 담론 전개 과정, 즉 답변이 상대방에게 어떤 영향을 미치는가에까지 미치는지에 대한 논의가 부족했습니다. 이는 특히 공감 대화에서 중요한 문제입니다. 효과적인 공감은 단순히 한 번의 친절한 답변뿐만 아니라, 대화가 진행됨에 따라 다양한 전략을 요구합니다(Stiles et al., 1998). 실제로 기존 연구에 따르면 LLM은 단일 턴 환경에서 인간 상담사보다 동일한 전략 시퀀스를 더 자주 반복 사용하는 경향이 있습니다(Gueorguieva et al., 2026). 본 연구는 이러한 분석을 다중 턴 대화로 확장하여, 전략이 상담사의 답변에 한 번 나타나면 LLM이 다음 답변에서 이를 거의 두 배의 비율로 재사용한다는 사실을 발견했습니다(0.50-0.56 vs. 0.27). 이러한 현상은 실제 감정 지원 대화에서 상담사 역할을 수행하는 LLM에서도 나타나며, 기존의 유사성 측정 방법으로는 이를 감지하기 어렵습니다. 이러한 문제점을 해결하기 위해, 본 연구는 다중 턴 공감 대화에서 담론 전개 과정의 다양성을 최적화하는 첫 번째 강화 학습 프레임워크인 MINT(Multi-turn Inter-tactic Novelty Training)를 제안합니다. 가장 우수한 MINT 모델은 공감 품질 보상과 함께 이전 답변과의 전략적 차이를 고려하는 신규성 신호를 결합하여, 1.7B 및 4B 모델에서 전체적인 공감 수준을 25.3% 향상시키고, 4B 모델에서 담론 전개 과정의 반복을 26.3% 감소시키는 성과를 보였습니다. 이러한 결과는 현재 모델이 공감 능력 자체의 부족보다는, 대화 과정에서 다양한 담론 전개 과정을 활용하는 능력의 부족에서 비롯된 문제임을 시사합니다.
Large language models (LLMs) produce responses rated as highly empathic in single-turn settings (Ayers et al., 2023; Lee et al., 2024), yet they are also known to be formulaic generators that reuse the same lexical patterns, syntactic templates, and discourse structures across tasks (Jiang et al., 2025; Shaib et al., 2024; Namuduri et al., 2025). Less attention has been paid to whether this formulaicity extends to the level of discourse moves, i.e., what a response does for the person it is addressing. This question is especially consequential for empathic dialogue, where effective support demands not just a kind response at one moment but varied strategies as a conversation unfolds (Stiles et al., 1998). Indeed, prior work shows that LLMs reuse the same tactic sequences more than human supporters in single-turn settings (Gueorguieva et al., 2026). We extend this analysis to multi-turn conversations and find that the rigidity compounds: once a tactic appears in a supporter turn, LLMs reuse it in the next at nearly double the rate of humans (0.50-0.56 vs. 0.27). This pattern holds across LLMs serving as supporters in real emotional support conversations, and is invisible to standard similarity metrics. To address this gap, we introduce MINT (Multi-turn Inter-tactic Novelty Training), the first reinforcement learning framework to optimize discourse move diversity across multi-turn empathic dialogue. The best MINT variant combines an empathy quality reward with a cross-turn tactic novelty signal, improving aggregate empathy by 25.3% over vanilla across 1.7B and 4B models while reducing cross-turn discourse move repetition by 26.3% on the 4B model, surpassing all baselines including quality-only and token-level diversity methods on both measures. These results suggest that what current models lack is not empathy itself, but the ability to vary their discourse moves across a conversation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.