2603.16759v1 Mar 17, 2026 cs.CL

TurnWise: 단일 턴과 다중 턴 언어 모델 능력 간의 격차

TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities

Hanna Hajishirzi
Hanna Hajishirzi
Citations: 6,512
h-index: 30
V. Pyatkin
V. Pyatkin
Citations: 2
h-index: 1
Victoria Graf
Victoria Graf
Citations: 17
h-index: 2
Nouha Dziri
Nouha Dziri
Citations: 9,048
h-index: 34
Nathan Lambert
Nathan Lambert
Citations: 649
h-index: 7

다중 턴 대화는 언어 모델과의 상호작용에서 흔히 사용되며 중요한 방식입니다. 그러나 현재 공개적으로 사용되는 학습 및 평가 데이터는 주로 단일 턴 환경에 초점을 맞추고 있어, 이러한 더 긴 상호작용의 추가적인 측면을 제대로 반영하지 못합니다. 이러한 다중/단일 턴 간의 격차를 이해하기 위해, 우리는 다중 턴 능력에 대한 새로운 벤치마크인 TurnWiseEval을 소개합니다. 이 벤치마크는 단일 턴 채팅 평가와 직접적으로 비교 가능합니다. 우리의 평가는 쌍대 비교를 통해 다중 턴에 특화된 대화 능력을 분리하여 평가합니다. 또한, 우리는 다중 턴 학습 데이터의 대규모 생성을 가능하게 하는 합성 다중 턴 데이터 파이프라인인 TurnWiseData를 소개합니다. Olmo 3 모델을 사용한 실험 결과, 다중 턴 데이터를 활용한 학습은 강력한 다중 턴 채팅 성능을 달성하는 데 매우 중요하며, 추가 학습 과정에서 1만 개의 다중 턴 대화 데이터를 사용하는 것만으로도 TurnWiseEval에서 12%의 성능 향상을 가져올 수 있다는 것을 확인했습니다.

Original Abstract

Multi-turn conversations are a common and critical mode of language model interaction. However, current open training and evaluation data focus on single-turn settings, failing to capture the additional dimension of these longer interactions. To understand this multi-/single-turn gap, we first introduce a new benchmark, TurnWiseEval, for multi-turn capabilities that is directly comparable to single-turn chat evaluation. Our evaluation isolates multi-turn specific conversational ability through pairwise comparison to equivalent single-turn settings. We additionally introduce our synthetic multi-turn data pipeline TurnWiseData which allows the scalable generation of multi-turn training data. Our experiments with Olmo 3 show that training with multi-turn data is vital to achieving strong multi-turn chat performance, and that including as little as 10k multi-turn conversations during post-training can lead to a 12% improvement on TurnWiseEval.

1 Citations
0 Influential
17 Altmetric
86.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!