"전체는 부분의 합보다 크다": 호환성 인식 다중 교사 CoT 증류 프레임워크
"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework
생각의 사슬(CoT) 추론은 대규모 언어 모델(LLM)에 놀라운 능력을 부여하지만, 일반적으로 막대한 규모의 매개변수를 필요로 합니다. CoT 증류(Distillation)는 이러한 추론 능력을 소형 학생 모델(SLM)로 전이하는 유망한 패러다임으로 부상했으나, 기존 접근 방식은 주로 단일 교사 모델에 의존하여 학생 모델의 잠재력을 제한하는 한계가 있었습니다. 이는 개별 LLM이 뚜렷한 능력 편향을 보이거나 파국적 망각(catastrophic forgetting)을 겪을 수 있기 때문입니다. 다양한 교사 모델을 활용하는 것이 매력적인 대안처럼 보이지만, 이들의 지도를 효과적으로 융합하는 것은 여전히 어려운 과제입니다. 교사와 학생 간의 비호환성은 환각(hallucination)을 증폭시킬 위험이 있으며, 수동적인 지도는 진정한 논리 내재화를 보장하지 못하기 때문입니다. 이를 해결하기 위해 우리는 다차원 지표를 통해 평가된 학생 모델의 실시간 호환성을 바탕으로 교사 그래디언트에 동적으로 가중치를 부여함으로써, 서로 다른 교사들의 지도를 적응적으로 융합하는 프레임워크인 COMPACT를 제안합니다. 이 다차원 지표는 (1) 주류 추론 경로를 식별하여 오해의 소지가 있는 근거를 걸러내는 그래프 기반 합의, (2) 단순 모방이 아닌 추론 과정을 진정으로 이해하는 '깨달음의 순간(epiphany moments)'을 감지하는 상호 정보 기반 적응성, (3) 교사의 지도에 대한 학생의 수용도를 평가하고 부정적 전이(negative transfer)를 방지하는 손실 기반 난이도로 구성됩니다. 광범위한 실험과 잠재 공간 분석 결과, COMPACT는 모델의 원래 지식 구조를 훼손하지 않으면서 다양한 추론 능력을 효과적으로 통합하였으며, 파국적 망각을 완화하는 동시에 여러 벤치마크에서 최고 수준(SOTA)의 성능을 달성함을 입증하였습니다.
Chain-of-Thought (CoT) reasoning empowers Large Language Models (LLMs) with remarkable capabilities but typically requires prohibitive parameter scales. CoT distillation has emerged as a promising paradigm to transfer reasoning prowess into compact Student Models (SLMs), but existing approaches often rely on a solitary teacher, capping the student's potential since individual LLMs often exhibit distinct capability biases and may suffer from catastrophic forgetting. While leveraging diverse teachers seems appealing, effectively fusing their supervisions remains challenging: teacher-student incompatibility risks amplifying hallucinations, and passive supervision fails to ensure genuine logic internalization. To address this, we introduce COMPACT, a framework that adaptively fuses supervisions from different teachers by dynamically weighting teacher gradients based on the student's real-time compatibility evaluated by a multi-dimensional metric: (1) Graph-based Consensus to filter misleading rationales by identifying mainstream reasoning paths; (2) Mutual-Information-based Adaptability to detect "epiphany moments" for genuinely understanding the reasoning process rather than merely imitating; and (3) Loss-based Difficulty to assess student receptivity to the teacher's guidance and prevent negative transfer. Extensive experiments and latent space analysis demonstrate that COMPACT effectively integrates diverse reasoning capabilities without damaging the model's original knowledge structure, achieving state-of-the-art performance on various benchmarks while mitigating catastrophic forgetting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.