TEA-Bench: 도구 강화 정서적 지원 대화 에이전트에 대한 체계적 벤치마킹
TEA-Bench: A Systematic Benchmarking of Tool-enhanced Emotional Support Dialogue Agent
정서적 지원 대화(Emotional Support Conversation, ESC)는 신뢰할 수 있는 지침을 제공하기 위해 정서적 표현뿐만 아니라 확실한 근거가 있는 도구적 지원(instrumental support)을 필요로 합니다. 그러나 기존 ESC 시스템과 벤치마크는 주로 텍스트 전용 환경에서의 정서적 지원에만 집중하여, 다중 턴 대화에서 외부 도구가 어떻게 사실적 근거를 제공하고 환각(hallucination)을 줄일 수 있는지를 간과하고 있습니다. 우리는 ESC에서 도구 증강 에이전트를 평가하기 위한 최초의 상호작용형 벤치마크인 TEA-Bench를 제안합니다. 이는 현실적인 감정 시나리오, MCP 스타일의 도구 환경, 그리고 정서적 지원의 품질과 사실적 근거를 종합적으로 평가하는 프로세스 수준의 지표를 특징으로 합니다. 9개의 LLM을 대상으로 한 실험 결과, 도구 증강은 일반적으로 정서적 지원 품질을 개선하고 환각을 줄였으나, 그 효과는 모델의 역량에 따라 크게 달라지는 것으로 나타났습니다. 고성능 모델은 도구를 더 선별적이고 효과적으로 사용한 반면, 저성능 모델은 그 이득이 미미했습니다. 또한 우리는 도구 강화 ESC 대화 데이터셋인 TEA-Dialog를 공개하며, 지도 미세 조정(Supervised Fine-Tuning)이 분포 내(in-distribution) 지원은 개선하지만 일반화 성능은 떨어진다는 것을 확인했습니다. 우리의 결과는 신뢰할 수 있는 정서적 지원 에이전트 구축에 있어 도구 사용의 중요성을 강조합니다.
Emotional Support Conversation requires not only affective expression but also grounded instrumental support to provide trustworthy guidance. However, existing ESC systems and benchmarks largely focus on affective support in text-only settings, overlooking how external tools can enable factual grounding and reduce hallucination in multi-turn emotional support. We introduce TEA-Bench, the first interactive benchmark for evaluating tool-augmented agents in ESC, featuring realistic emotional scenarios, an MCP-style tool environment, and process-level metrics that jointly assess the quality and factual grounding of emotional support. Experiments on nine LLMs show that tool augmentation generally improves emotional support quality and reduces hallucination, but the gains are strongly capacity-dependent: stronger models use tools more selectively and effectively, while weaker models benefit only marginally. We further release TEA-Dialog, a dataset of tool-enhanced ESC dialogues, and find that supervised fine-tuning improves in-distribution support but generalizes poorly. Our results underscore the importance of tool use in building reliable emotional support agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.