2601.06426v1 Jan 10, 2026 cs.CL

NC-Bench: 대화 능력 평가를 위한 LLM 벤치마크

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Robert J. Moore
Robert J. Moore
Citations: 2
h-index: 1
Sungeun An
Sungeun An
Citations: 12
h-index: 2
Farhan Ahmed
Farhan Ahmed
Citations: 0
h-index: 0
J. Gala
J. Gala
Citations: 2
h-index: 1

자연 대화 벤치마크(NC-Bench)는 대규모 언어 모델(LLM)의 일반적인 대화 능력을 평가하는 새로운 접근 방식을 제시합니다. 기존 벤치마크가 모델의 행동 내용에 초점을 맞추는 반면, NC-Bench는 자연 대화의 형식과 구조에 집중합니다. IBM 자연 대화 프레임워크(NCF)를 기반으로 하는 NC-Bench는 세 가지 고유한 데이터 세트로 구성됩니다. 기본 대화 능력 데이터 세트는 문의 응답, 응답 수정, 대화 쌍 종료 등과 같은 기본적인 시퀀스 관리 방식을 평가합니다. RAG 데이터 세트는 첫 번째 데이터 세트와 동일한 시퀀스 관리 패턴을 사용하지만, 검색 기반 생성(RAG) 기술을 통합합니다. 복잡한 요청 데이터 세트는 평가 범위를 더욱 복잡한 시퀀스 관리 패턴을 포함하는 요청으로 확장합니다. 각 벤치마크는 모델이 특정 상호 작용 패턴에 대한 맥락적으로 적절한 대화 행동을 생성하는 능력을 테스트합니다. 6개의 오픈 소스 모델과 14가지 상호 작용 패턴에 대한 초기 평가 결과, 모델은 기본적인 답변 작업에서는 잘 수행되지만, 응답 수정 작업(특히 반복)에서는 어려움을 겪고, 대화 종료에서는 성능이 혼합되며, 복잡한 다중 턴 요청에서 가장 큰 어려움을 겪는 것으로 나타났습니다. Qwen 모델은 기본 데이터 세트에서, Granite 모델은 RAG 데이터 세트 및 복잡한 요청 데이터 세트에서 뛰어난 성능을 보였습니다. NC-Bench는 인간 대화의 기본 원리를 구체화함으로써, 주제별 또는 작업별 벤치마크를 넘어 LLM의 대화 능력을 평가하고 개선하기 위한 가볍고 확장 가능하며 이론적으로 기반한 프레임워크를 제공합니다.

Original Abstract

The Natural Conversation Benchmark (NC-Bench) introduce a new approach to evaluating the general conversational competence of large language models (LLMs). Unlike prior benchmarks that focus on the content of model behavior, NC-Bench focuses on the form and structure of natural conversation. Grounded in the IBM Natural Conversation Framework (NCF), NC-Bench comprises three distinct sets. The Basic Conversation Competence set evaluates fundamental sequence management practices, such as answering inquiries, repairing responses, and closing conversational pairs. The RAG set applies the same sequence management patterns as the first set but incorporates retrieval-augmented generation (RAG). The Complex Request set extends the evaluation to complex requests involving more intricate sequence management patterns. Each benchmark tests a model's ability to produce contextually appropriate conversational actions in response to characteristic interaction patterns. Initial evaluations across 6 open-source models and 14 interaction patterns show that models perform well on basic answering tasks, struggle more with repair tasks (especially repeat), have mixed performance on closing sequences, and find complex multi-turn requests most challenging, with Qwen models excelling on the Basic set and Granite models on the RAG set and the Complex Request set. By operationalizing fundamental principles of human conversation, NC-Bench provides a lightweight, extensible, and theory-grounded framework for assessing and improving the conversational abilities of LLMs beyond topical or task-specific benchmarks.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!