효율적인 다단계 LLM 상호 작용을 위한 동적 혼합 정밀도 라우팅
Dynamic Mix Precision Routing for Efficient Multi-step LLM Interaction
대규모 언어 모델(LLM)은 테스트 시 다단계 상호 작용과 추론을 통해 장기 의사 결정 작업에서 뛰어난 성능을 보입니다. 일반적으로 더 높은 작업 성공률은 더 크고 강력한 LLM 모델을 필요로 하지만, 대규모 LLM과의 다단계 상호 작용은 엄청난 추론 비용을 발생시킵니다. 이러한 문제를 해결하기 위해, 본 연구에서는 장기 의사 결정 과정에서 저정밀 양자화된 LLM을 사용하는 방안을 탐구합니다. 상호 작용 단계별로 다양한 민감도가 존재한다는 관찰 결과를 바탕으로, 각 의사 결정 단계에서 고정밀 및 저정밀 LLM 중에서 적절한 모델을 선택하는 동적 혼합 정밀도 라우팅 프레임워크를 제안합니다. 제안하는 라우팅기는 두 단계 파이프라인을 통해 훈련됩니다. 첫 번째 단계는 KL-다이버전스 기반의 지도 학습을 통해 정밀도에 민감한 단계를 식별하며, 두 번째 단계는 그룹 상대 정책 최적화(GRPO)를 통해 작업 성공률을 더욱 향상시킵니다. ALFWorld 데이터셋에 대한 실험 결과, 제안하는 방법은 단일 정밀도 기준 모델 및 휴리스틱 라우팅 방법보다 정확도와 비용 간의 균형을 크게 향상시키는 것을 보여줍니다.
Large language models (LLM) achieve strong performance in long-horizon decision-making tasks through multi-step interaction and reasoning at test time. While practitioners commonly believe a higher task success rate necessitates the use of a larger and stronger LLM model, multi-step interaction with a large LLM incurs prohibitive inference cost. To address this problem, we explore the use of low-precision quantized LLM in the long-horizon decision-making process. Based on the observation of diverse sensitivities among interaction steps, we propose a dynamic mix-precision routing framework that adaptively selects between high-precision and low-precision LLMs at each decision step. The router is trained via a two-stage pipeline, consisting of KL-divergence-based supervised learning that identifies precision-sensitive steps, followed by Group-Relative Policy Optimization (GRPO) to further improve task success rates. Experiments on ALFWorld demonstrate that our approach achieves a great improvement on accuracy-cost trade-off over single-precision baselines and heuristic routing methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.