2602.02711v1 Feb 02, 2026 cs.AI

효율적인 다단계 LLM 상호 작용을 위한 동적 혼합 정밀도 라우팅

Dynamic Mix Precision Routing for Efficient Multi-step LLM Interaction

Song Wang
Song Wang
Citations: 41
h-index: 3
Yuanzhe Li
Yuanzhe Li
Citations: 37
h-index: 4
Jianing Deng
Jianing Deng
Citations: 2
h-index: 1
Jingtong Hu
Jingtong Hu
Citations: 100
h-index: 3
Tianlong Chen
Tianlong Chen
Citations: 82
h-index: 2
Huan Yang
Huan Yang
Citations: 228
h-index: 4

대규모 언어 모델(LLM)은 테스트 시 다단계 상호 작용과 추론을 통해 장기 의사 결정 작업에서 뛰어난 성능을 보입니다. 일반적으로 더 높은 작업 성공률은 더 크고 강력한 LLM 모델을 필요로 하지만, 대규모 LLM과의 다단계 상호 작용은 엄청난 추론 비용을 발생시킵니다. 이러한 문제를 해결하기 위해, 본 연구에서는 장기 의사 결정 과정에서 저정밀 양자화된 LLM을 사용하는 방안을 탐구합니다. 상호 작용 단계별로 다양한 민감도가 존재한다는 관찰 결과를 바탕으로, 각 의사 결정 단계에서 고정밀 및 저정밀 LLM 중에서 적절한 모델을 선택하는 동적 혼합 정밀도 라우팅 프레임워크를 제안합니다. 제안하는 라우팅기는 두 단계 파이프라인을 통해 훈련됩니다. 첫 번째 단계는 KL-다이버전스 기반의 지도 학습을 통해 정밀도에 민감한 단계를 식별하며, 두 번째 단계는 그룹 상대 정책 최적화(GRPO)를 통해 작업 성공률을 더욱 향상시킵니다. ALFWorld 데이터셋에 대한 실험 결과, 제안하는 방법은 단일 정밀도 기준 모델 및 휴리스틱 라우팅 방법보다 정확도와 비용 간의 균형을 크게 향상시키는 것을 보여줍니다.

Original Abstract

Large language models (LLM) achieve strong performance in long-horizon decision-making tasks through multi-step interaction and reasoning at test time. While practitioners commonly believe a higher task success rate necessitates the use of a larger and stronger LLM model, multi-step interaction with a large LLM incurs prohibitive inference cost. To address this problem, we explore the use of low-precision quantized LLM in the long-horizon decision-making process. Based on the observation of diverse sensitivities among interaction steps, we propose a dynamic mix-precision routing framework that adaptively selects between high-precision and low-precision LLMs at each decision step. The router is trained via a two-stage pipeline, consisting of KL-divergence-based supervised learning that identifies precision-sensitive steps, followed by Group-Relative Policy Optimization (GRPO) to further improve task success rates. Experiments on ALFWorld demonstrate that our approach achieves a great improvement on accuracy-cost trade-off over single-precision baselines and heuristic routing methods.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!