TurnWise: 단일 턴과 다중 턴 언어 모델 능력 간의 격차
TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities
다중 턴 대화는 언어 모델과의 상호작용에서 흔히 사용되며 중요한 방식입니다. 그러나 현재 공개적으로 사용되는 학습 및 평가 데이터는 주로 단일 턴 환경에 초점을 맞추고 있어, 이러한 더 긴 상호작용의 추가적인 측면을 제대로 반영하지 못합니다. 이러한 다중/단일 턴 간의 격차를 이해하기 위해, 우리는 다중 턴 능력에 대한 새로운 벤치마크인 TurnWiseEval을 소개합니다. 이 벤치마크는 단일 턴 채팅 평가와 직접적으로 비교 가능합니다. 우리의 평가는 쌍대 비교를 통해 다중 턴에 특화된 대화 능력을 분리하여 평가합니다. 또한, 우리는 다중 턴 학습 데이터의 대규모 생성을 가능하게 하는 합성 다중 턴 데이터 파이프라인인 TurnWiseData를 소개합니다. Olmo 3 모델을 사용한 실험 결과, 다중 턴 데이터를 활용한 학습은 강력한 다중 턴 채팅 성능을 달성하는 데 매우 중요하며, 추가 학습 과정에서 1만 개의 다중 턴 대화 데이터를 사용하는 것만으로도 TurnWiseEval에서 12%의 성능 향상을 가져올 수 있다는 것을 확인했습니다.
Multi-turn conversations are a common and critical mode of language model interaction. However, current open training and evaluation data focus on single-turn settings, failing to capture the additional dimension of these longer interactions. To understand this multi-/single-turn gap, we first introduce a new benchmark, TurnWiseEval, for multi-turn capabilities that is directly comparable to single-turn chat evaluation. Our evaluation isolates multi-turn specific conversational ability through pairwise comparison to equivalent single-turn settings. We additionally introduce our synthetic multi-turn data pipeline TurnWiseData which allows the scalable generation of multi-turn training data. Our experiments with Olmo 3 show that training with multi-turn data is vital to achieving strong multi-turn chat performance, and that including as little as 10k multi-turn conversations during post-training can lead to a 12% improvement on TurnWiseEval.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.