2603.08068v1 Mar 09, 2026 cs.AI

대규모 언어 모델의 도구 사용을 위한 컨텍스트 기반 강화 학습

In-Context Reinforcement Learning for Tool Use in Large Language Models

Zeyu Zheng
Zeyu Zheng
Citations: 20
h-index: 3
Cihang Xie
Cihang Xie
Citations: 191
h-index: 6
Yiran Zhao
Yiran Zhao
Citations: 10
h-index: 1
Yaoqi Ye
Yaoqi Ye
Citations: 15
h-index: 2
Keyu Duan
Keyu Duan
Citations: 19
h-index: 3
Kenji Kawaguchi
Kenji Kawaguchi
Citations: 304
h-index: 6
Michael Shieh
Michael Shieh
Citations: 251
h-index: 8

대규모 언어 모델(LLM)은 뛰어난 추론 능력을 보이지만, 복잡한 작업에서의 성능은 종종 내부 지식의 한계로 인해 제한됩니다. 이러한 문제를 해결하는 유망한 방법 중 하나는 파이썬 인터프리터(수학 연산용) 또는 검색 엔진(사실 정보 검색용)과 같은 외부 도구를 이러한 모델에 추가하는 것입니다. 그러나 모델이 이러한 도구를 효과적으로 사용하도록 하는 것은 여전히 중요한 과제입니다. 기존 방법은 일반적으로 지도 학습(SFT)으로 시작하여 강화 학습(RL)을 수행하는 방식으로 작동합니다. 이러한 접근 방식은 종종 SFT에 상당한 양의 레이블이 지정된 데이터를 필요로 하며, 이는 주석을 달거나 생성하는 데 비용이 많이 듭니다. 본 연구에서는 컨텍스트 기반 강화 학습(ICRL)이라는 RL 전용 프레임워크를 제안합니다. ICRL은 RL 단계에서 몇 가지 예시 프롬프트를 활용하여 SFT의 필요성을 없앱니다. 특히, ICRL은 외부 도구를 호출하는 방법을 모델에게 가르치기 위해 롤아웃 프롬프트 내에 컨텍스트 예시를 도입합니다. 또한, 훈련이 진행됨에 따라 컨텍스트 예시의 수가 점진적으로 줄어들어 결국 모델이 도구를 독립적으로 호출하는 제로샷 설정에 도달합니다. 다양한 추론 및 도구 사용 벤치마크에 대한 광범위한 실험을 수행했습니다. 결과는 ICRL이 최첨단 성능을 달성하며, 기존의 SFT 기반 파이프라인에 대한 확장 가능하고 데이터 효율적인 대안으로서의 효과를 입증합니다.

Original Abstract

While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!