Tandem: 효율적인 추론을 위한 대규모 및 소규모 언어 모델의 협력적 활용
Tandem: Riding Together with Large and Small Language Models for Efficient Reasoning
최근 대규모 언어 모델(LLM)의 발전은 모델이 최종 답변을 생성하기 전에 명시적인 단계별 추론을 수행하는 추론 중심의 추론 패러다임을 촉진했습니다. 이러한 접근 방식은 답변 품질과 해석 가능성을 향상시키지만, 긴 생성 시퀀스로 인해 상당한 계산 오버헤드를 발생시킵니다. 본 논문에서는 대규모 및 소규모 언어 모델(LLM 및 SLM)을 결합하여 고품질 추론을 달성하면서도 계산 비용을 크게 줄이는 새로운 협업 프레임워크인 Tandem을 제안합니다. 구체적으로, LLM은 전략적 조정자 역할을 수행하여 핵심적인 추론 통찰력을 효율적으로 생성합니다. 이러한 통찰력은 이후 더 작고 효율적인 SLM이 전체 추론 프로세스를 실행하고 최종 응답을 제공하도록 안내하는 데 사용됩니다. Tandem은 효율성과 신뢰성을 균형 있게 유지하기 위해, LLM의 생성이 언제 충분한 추론 지침이 축적되었는지에 따라 적응적으로 결정하여 조기 중단을 가능하게 하는 비용 기반 종료 메커니즘을 도입합니다. 수학적 추론 및 코드 생성 벤치마크에 대한 실험 결과, Tandem은 독립적인 LLM 추론에 비해 약 40%의 계산 비용을 절감하면서도 우수한 또는 경쟁력 있는 성능을 달성하는 것으로 나타났습니다. 또한, 하나의 도메인에서 훈련된 충분성 분류기는 재훈련 없이 다른 도메인에도 효과적으로 적용됩니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: https://github.com/Applied-Machine-Learning-Lab/ACL2026_Tandem.
Recent advancements in large language models (LLMs) have catalyzed the rise of reasoning-intensive inference paradigms, where models perform explicit step-by-step reasoning before generating final answers. While such approaches improve answer quality and interpretability, they incur substantial computational overhead due to the prolonged generation sequences. In this paper, we propose Tandem, a novel collaborative framework that synergizes large and small language models (LLMs and SLMs) to achieve high-quality reasoning with significantly reduced computational cost. Specifically, the LLM serves as a strategic coordinator, efficiently generating a compact set of critical reasoning insights. These insights are then used to guide a smaller, more efficient SLM in executing the full reasoning process and delivering the final response. To balance efficiency and reliability, Tandem introduces a cost-aware termination mechanism that adaptively determines when sufficient reasoning guidance has been accumulated, enabling early stopping of the LLM's generation. Experiments on mathematical reasoning and code generation benchmarks demonstrate that Tandem reduces computational costs by approximately 40% compared to standalone LLM reasoning, while achieving superior or competitive performance. Furthermore, the sufficiency classifier trained on one domain transfers effectively to others without retraining. The code is available at: https://github.com/Applied-Machine-Learning-Lab/ACL2026_Tandem.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.