불확실성이 숨겨진 때: 생성에 초점을 둔 하이브리드 시퀀스 모델 증류
When Perplexity Lies: Generation-Focused Distillation of Hybrid Sequence Models
사전 훈련된 트랜스포머 모델을 증류를 통해 더 효율적인 하이브리드 모델로 변환하는 것은 추론 비용을 줄이는 유망한 접근 방식입니다. 그러나 증류된 모델에서 고품질의 생성을 달성하려면 학생 모델의 아키텍처와 증류 과정 모두를 신중하게 설계해야 합니다. 많은 기존 증류 연구에서는 오토리거시브 생성을 요구하는 대신 로그-우도(log-likelihood)를 사용하여 후보 답변을 순위화하는 방식으로 다운스트림 다중 선택 벤치마크를 평가하는데, 이는 모델 품질의 중요한 차이를 가릴 수 있습니다. 예를 들어, 로그-우도 점수에서 교사 모델과 거의 일치하는 70억 개의 파라미터를 가진 증류 모델이 실제로 오토리거시브 생성이 필요할 때 20.8%p나 뒤떨어진다는 것을 보여줍니다. 저희는 하이브리드 Kimi Delta Attention (Hybrid-KDA) 아키텍처와 다단계 증류 파이프라인인 GenDistill을 제안하고, 설계 결정을 안내하기 위해 생성 기반 평가를 전체적으로 사용합니다. Qwen3-0.6B에 이 접근 방식을 적용하여, 훈련 목표, 손실 마스킹, 훈련 기간, 데이터 세트 선택, 파라미터 동결 및 아키텍처 선택의 여섯 가지 설계 요소를 체계적으로 분석했습니다. 저희는 로그-우도 기반 평가가 교사와 학생 모델 간의 격차를 지속적으로 과소평가하며, 경우에 따라 설계 선택의 순위를 뒤바꿀 수 있다는 것을 발견했습니다. 즉, 퍼플렉시티(perplexity)만을 사용하여 얻은 결론은 오해의 소지가 있을 수 있습니다. 저희가 연구한 요인 중 데이터 세트 선택, 완성-전용 마스킹, 그리고 사후 훈련 중에 어텐션 레이어를 동결하는 것이 생성 품질에 가장 큰 영향을 미칩니다. 저희의 가장 우수한 Hybrid-KDA 모델은 지식 벤치마크에서 교사 모델의 86-90%의 정확도를 유지하면서 KV 캐시 메모리를 최대 75%까지 줄이고 128K 토큰 컨텍스트에서 토큰 생성 시간을 2-4배 향상시킵니다.
Converting a pretrained Transformer into a more efficient hybrid model through distillation offers a promising approach to reducing inference costs. However, achieving high-quality generation in distilled models requires careful joint design of both the student architecture and the distillation process. Many prior distillation works evaluate downstream multiple-choice benchmarks by ranking candidate answers with log-likelihood rather than requiring autoregressive generation, which can obscure important differences in model quality. For example, we show that a 7B parameter distilled model that nearly matches its teacher to within 0.2\,pp under log-likelihood scoring actually falls behind by 20.8\,pp when the model must generate answers autoregressively. We propose a Hybrid Kimi Delta Attention (Hybrid-KDA) architecture paired with GenDistill, a multi-stage distillation pipeline, and use generation-based evaluation throughout to guide design decisions. Applying this approach to Qwen3-0.6B, we systematically ablate six design axes: training objective, loss masking, training duration, dataset selection, parameter freezing, and architecture choice. We find that log-likelihood-based evaluation consistently underestimates the gap between teacher and student, and can in some cases reverse the ranking of design choices, meaning that conclusions drawn from perplexity-only evaluation may be misleading. Among the factors we study, dataset selection, completion-only masking, and freezing attention layers during post-training have the largest impact on generation quality. Our best Hybrid-KDA model retains 86--90\% of teacher accuracy on knowledge benchmarks while reducing KV cache memory by up to 75\% and improving time-to-first-token by 2--4$\times$ at 128K-token contexts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.