협력적 단계별 다중 교사 디코딩을 통한 긴-사고 과정 추론 증류
Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding
대규모 추론 모델의 증류는 긴-사고 과정(Long-CoT) 추론을 실용적으로 만들기 위해 필수적이며, 전체 규모의 추론은 여전히 계산적으로 매우 부담스럽기 때문입니다. 기존의 선별 기반 접근 방식은 사후적으로 완전한 추론 과정을 선택하며, 이 과정에서 이질적인 교사 모델 간의 협력을 간과하고 동적인 탐색이 부족하여 불필요한 샘플링과 보완적인 추론 기회를 놓치게 됩니다. 본 연구에서는 예측 기반의 퍼플렉시티 점수와 빔 서치를 활용하여 단계별 추론을 합성하는 협력적 다중 교사 디코딩 프레임워크인 CoRD를 제안합니다. 이를 통해 이질적인 대규모 언어 모델(LRM)들이 일관성 있는 추론 경로를 공동으로 구축하면서, 다양한 가능성을 가진 가설들을 효율적으로 유지할 수 있습니다. 실험 결과, CoRD는 더 높은 품질의 추론 데이터를 생성하며, 적은 양의 구조화된 지도 신호만으로도 교사 수준에 가까운 학생 모델의 성능을 달성합니다. 또한 CoRD는 효율성 저하 없이 외부 도메인 및 개방형 환경에서도 뛰어난 일반화 성능을 보입니다. 데이터셋과 모델은 다음 링크에서 제공됩니다: [https://github.com/DISL-Lab/CoRD](https://github.com/DISL-Lab/CoRD)
Distilling large reasoning models is essential for making Long-CoT reasoning practical, as full-scale inference remains computationally prohibitive. Existing curation-based approaches select complete reasoning traces post-hoc, overlooking collaboration among heterogeneous teachers and lacking dynamic exploration, which leads to redundant sampling and missed complementary reasoning. We introduce CoRD, a collaborative multi-teacher decoding framework that performs step-wise reasoning synthesis guided by predictive perplexity-based scoring and beam search. This enables heterogeneous LRMs to jointly construct coherent reasoning trajectories while efficiently preserving diverse, high-potential hypotheses. Experiments show that CoRD produces higher-quality reasoning data and achieves near teacher-level student performance with fewer, structured supervision signals, without substantial efficiency overhead. CoRD further generalizes well to out-of-domain and open-ended settings. The dataset and model are available at \href{https://github.com/DISL-Lab/CoRD}{https://github.com/DISL-Lab/CoRD}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.