RelayLLM: 협력적 디코딩을 통한 효율적인 추론
RelayLLM: Efficient Reasoning via Collaborative Decoding
복잡한 추론에 사용되는 거대 언어 모델(LLM)은 높은 계산 비용과 지연 시간으로 인해 어려움을 겪는 반면, 자원 효율적인 소형 언어 모델(SLM)은 일반적으로 필요한 추론 능력이 부족합니다. 기존의 협력 방식, 예를 들어 캐스케이딩 또는 라우팅은 전체 쿼리를 LLM으로 오프로드하여 작동하며, 이는 SLM이 대부분의 추론 단계를 처리할 수 있음에도 불구하고 상당한 계산 낭비를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 토큰 수준의 협력적 디코딩을 통한 효율적인 추론을 위한 새로운 프레임워크인 RelayLLM을 제안합니다. RelayLLM은 라우터와 달리, SLM이 능동적인 제어기로 작동하여, 특수 명령을 통해 LLM을 오직 중요한 토큰에 대해서만 동적으로 호출하여 생성 과정을 효과적으로 "전달(relay)"하도록 합니다. 우리는 모델이 독립성을 전략적인 도움 요청과 균형 있게 유지하도록 훈련하기 위한 두 단계의 훈련 프레임워크, 즉 워밍업과 그룹 상대 정책 최적화(GRPO)를 도입했습니다. 여섯 가지 벤치마크에 대한 실험 결과는 RelayLLM이 평균 49.52%의 정확도를 달성하여 두 모델 간의 성능 격차를 효과적으로 줄인다는 것을 보여줍니다. 주목할 만한 점은 LLM이 전체 생성 토큰의 1.07%에 대해서만 호출됨으로써, 성능이 일치하는 무작위 라우터에 비해 98.2%의 비용 절감 효과를 제공한다는 것입니다.
Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.