2601.06022v1 Jan 09, 2026 cs.CL

AdaFuse: 테스트 시간 스케일링을 통한 적응형 앙상블 디코딩 기법, LLM (대규모 언어 모델)을 위한

AdaFuse: Adaptive Ensemble Decoding with Test-Time Scaling for LLMs

Zhining Liu
Zhining Liu
Citations: 260
h-index: 10
Xuying Ning
Xuying Ning
Citations: 159
h-index: 7
Duo Zhou
Duo Zhou
Citations: 74
h-index: 4
Jingrui He
Jingrui He
Citations: 20
h-index: 3
Tianxin Wei
Tianxin Wei
Citations: 245
h-index: 10
Zhichen Zeng
Zhichen Zeng
University of Illinois Urbana-Champaign
Citations: 510
h-index: 14
Cheng Cui
Cheng Cui
Citations: 201
h-index: 4
Ziyi Chen
Ziyi Chen
Citations: 413
h-index: 4
Ruizhong Qiu
Ruizhong Qiu
Citations: 40
h-index: 3

대규모 언어 모델(LLM)은 사전 훈련 데이터, 모델 아키텍처 및 디코딩 방식의 차이로 인해 상호 보완적인 강점을 나타냅니다. 추론 시간 앙상블은 재훈련 없이 이러한 기능을 결합하는 실용적인 방법입니다. 그러나 기존 앙상블 방식은 근본적인 한계를 가지고 있습니다. 대부분의 방식은 고정된 융합 단위를 사용하는데, 이는 중간 생성 단계에서의 적응성을 제공하지 못하며, 다양한 작업에 따른 생성 특성에 대한 적응도 어렵습니다. 이러한 문제점을 해결하기 위해, 우리는 AdaFuse라는 적응형 앙상블 디코딩 프레임워크를 제안합니다. AdaFuse는 생성 과정에서 의미적으로 적절한 융합 단위를 동적으로 선택합니다. 기존 방식과 달리, AdaFuse는 고정된 단위를 사용하는 대신, 디코딩 컨텍스트에 따라 융합 방식을 실시간으로 조정하며, 단어를 정렬의 기본 구성 요소로 사용합니다. 구체적으로, 우리는 각 디코딩 단계에서 앙상블을 적용할지 여부를 결정하기 위해 불확실성 기반 기준을 도입했습니다. 모델이 확신을 가지고 생성하는 경우, 직접 생성을 진행합니다. 불확실성이 높은 경우, AdaFuse는 다양성을 고려한 스케일링 전략을 사용하여 대체 후보를 탐색하고 앙상블 결정을 내립니다. 이러한 설계는 적응형 앙상블과 테스트 시간 스케일링 간의 시너지 효과를 창출합니다. 여기서 앙상블 결정은 목표 탐색을 안내하고, 결과적으로 얻어지는 다양성은 앙상블 품질을 강화합니다. 개방형 질문 답변, 산술 추론 및 기계 번역에 대한 실험 결과, AdaFuse는 강력한 앙상블 기반 모델보다 일관되게 우수한 성능을 보이며, 평균 6.88%의 상대적인 성능 향상을 달성했습니다. 코드 repository는 https://github.com/CCM0111/AdaFuse 에서 확인할 수 있습니다.

Original Abstract

Large language models (LLMs) exhibit complementary strengths arising from differences in pretraining data, model architectures, and decoding behaviors. Inference-time ensembling provides a practical way to combine these capabilities without retraining. However, existing ensemble approaches suffer from fundamental limitations. Most rely on fixed fusion granularity, which lacks the flexibility required for mid-generation adaptation and fails to adapt to different generation characteristics across tasks. To address these challenges, we propose AdaFuse, an adaptive ensemble decoding framework that dynamically selects semantically appropriate fusion units during generation. Rather than committing to a fixed granularity, AdaFuse adjusts fusion behavior on the fly based on the decoding context, with words serving as basic building blocks for alignment. To be specific, we introduce an uncertainty-based criterion to decide whether to apply ensembling at each decoding step. Under confident decoding states, the model continues generation directly. In less certain states, AdaFuse invokes a diversity-aware scaling strategy to explore alternative candidate continuations and inform ensemble decisions. This design establishes a synergistic interaction between adaptive ensembling and test-time scaling, where ensemble decisions guide targeted exploration, and the resulting diversity in turn strengthens ensemble quality. Experiments on open-domain question answering, arithmetic reasoning, and machine translation demonstrate that AdaFuse consistently outperforms strong ensemble baselines, achieving an average relative improvement of 6.88%. The code is available at https://github.com/CCM0111/AdaFuse.

4 Citations
0 Influential
33.931471805599 Altmetric
173.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!