2605.02290v1 May 04, 2026 cs.AI

협력적 단계별 다중 교사 디코딩을 통한 긴-사고 과정 추론 증류

Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding

Yujia Liu
Yujia Liu
Citations: 0
h-index: 0
Jeonghwan Choi
Jeonghwan Choi
Citations: 14
h-index: 2
Hwanjun Song
Hwanjun Song
Citations: 11
h-index: 2
Taewon Yun
Taewon Yun
Citations: 73
h-index: 4
Seunghwan Bang
Seunghwan Bang
UNIST
Citations: 8
h-index: 1

대규모 추론 모델의 증류는 긴-사고 과정(Long-CoT) 추론을 실용적으로 만들기 위해 필수적이며, 전체 규모의 추론은 여전히 계산적으로 매우 부담스럽기 때문입니다. 기존의 선별 기반 접근 방식은 사후적으로 완전한 추론 과정을 선택하며, 이 과정에서 이질적인 교사 모델 간의 협력을 간과하고 동적인 탐색이 부족하여 불필요한 샘플링과 보완적인 추론 기회를 놓치게 됩니다. 본 연구에서는 예측 기반의 퍼플렉시티 점수와 빔 서치를 활용하여 단계별 추론을 합성하는 협력적 다중 교사 디코딩 프레임워크인 CoRD를 제안합니다. 이를 통해 이질적인 대규모 언어 모델(LRM)들이 일관성 있는 추론 경로를 공동으로 구축하면서, 다양한 가능성을 가진 가설들을 효율적으로 유지할 수 있습니다. 실험 결과, CoRD는 더 높은 품질의 추론 데이터를 생성하며, 적은 양의 구조화된 지도 신호만으로도 교사 수준에 가까운 학생 모델의 성능을 달성합니다. 또한 CoRD는 효율성 저하 없이 외부 도메인 및 개방형 환경에서도 뛰어난 일반화 성능을 보입니다. 데이터셋과 모델은 다음 링크에서 제공됩니다: [https://github.com/DISL-Lab/CoRD](https://github.com/DISL-Lab/CoRD)

Original Abstract

Distilling large reasoning models is essential for making Long-CoT reasoning practical, as full-scale inference remains computationally prohibitive. Existing curation-based approaches select complete reasoning traces post-hoc, overlooking collaboration among heterogeneous teachers and lacking dynamic exploration, which leads to redundant sampling and missed complementary reasoning. We introduce CoRD, a collaborative multi-teacher decoding framework that performs step-wise reasoning synthesis guided by predictive perplexity-based scoring and beam search. This enables heterogeneous LRMs to jointly construct coherent reasoning trajectories while efficiently preserving diverse, high-potential hypotheses. Experiments show that CoRD produces higher-quality reasoning data and achieves near teacher-level student performance with fewer, structured supervision signals, without substantial efficiency overhead. CoRD further generalizes well to out-of-domain and open-ended settings. The dataset and model are available at \href{https://github.com/DISL-Lab/CoRD}{https://github.com/DISL-Lab/CoRD}.

0 Citations
0 Influential
27.493061443341 Altmetric
137.5 Score
Original PDF
2

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!