MPCEval: 다자간 대화 생성 모델 평가를 위한 벤치마크
MPCEval: A Benchmark for Multi-Party Conversation Generation
스마트 답변 및 협업 어시스턴트와 같은 다자간 대화 생성은 생성형 AI의 점점 더 중요한 기능이 되지만, 그 평가는 여전히 중요한 난관입니다. 두 당사자 대화와 달리, 다자간 환경은 복잡한 발언 순서, 역할에 따른 발화자 행동, 장거리 대화 구조, 그리고 여러 개의 동등하게 유효한 응답이라는 뚜렷한 과제를 제시합니다. 이에 따라, 우리는 다자간 대화 생성을 위한 작업 인식 평가 및 벤치마킹 도구인 MPCEval을 소개합니다. MPCEval은 생성 품질을 발화자 모델링, 내용 품질, 그리고 발화자-내용 일관성으로 분해하고, 로컬 차원의 다음 발언 예측과 글로벌 차원의 전체 대화 생성을 명시적으로 구분합니다. MPCEval은 데이터셋과 모델에 적용 가능한 새로운, 정량적, 참조 불필요, 그리고 재현 가능한 지표를 제공합니다. 우리는 MPCEval을 다양한 공개 및 실제 데이터셋에 적용하여 최신 생성 모델을 인간이 작성한 대화와 함께 평가했습니다. 그 결과, 모델의 참여 균형, 내용 진행 및 참신성, 그리고 발화자-내용 일관성 측면에서 체계적이고 차원별 특성이 나타났으며, 이는 평가 목표가 모델 평가에 중요한 영향을 미치고, 단일 점수 평가가 다자간 대화 행동의 근본적인 차이를 가린다는 것을 보여줍니다. MPCEval의 구현 및 관련 평가 코드는 https://github.com/Owen-Yang-18/MPCEval 에서 공개적으로 이용할 수 있습니다.
Multi-party conversation generation, such as smart reply and collaborative assistants, is an increasingly important capability of generative AI, yet its evaluation remains a critical bottleneck. Compared to two-party dialogue, multi-party settings introduce distinct challenges, including complex turn-taking, role-dependent speaker behavior, long-range conversational structure, and multiple equally valid continuations. Accordingly, we introduce MPCEval, a task-aware evaluation and benchmarking suite for multi-party conversation generation. MPCEval decomposes generation quality into speaker modeling, content quality, and speaker--content consistency, and explicitly distinguishes local next-turn prediction from global full-conversation generation. It provides novel, quantitative, reference-free, and reproducible metrics that scale across datasets and models. We apply MPCEval to diverse public and real-world datasets and evaluate modern generation methods alongside human-authored conversations. The results reveal systematic, dimension-specific model characteristics in participation balance, content progression and novelty, and speaker--content consistency, demonstrating that evaluation objectives critically shape model assessment and that single-score evaluation obscures fundamental differences in multi-party conversational behavior. The implementation of MPCEval and the associated evaluation code are publicly available at https://github.com/Owen-Yang-18/MPCEval.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.