2601.18510v1 Jan 26, 2026 cs.LG

실시간 강화 학습: 그래디언트 업데이트 없이 LLM 에이전트의 지속적인 학습

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

Yufei He
Yufei He
Citations: 330
h-index: 10
Yibo Li
Yibo Li
Citations: 35
h-index: 4
Bryan Hooi
Bryan Hooi
Citations: 908
h-index: 15
Shuo Ji
Shuo Ji
Citations: 16
h-index: 3
Zijie Lin
Zijie Lin
Citations: 19
h-index: 3
Ailin Deng
Ailin Deng
Citations: 21
h-index: 3
Xuan Zhang
Xuan Zhang
Citations: 9
h-index: 2
Tri Cao
Tri Cao
Citations: 204
h-index: 7

대규모 언어 모델(LLM) 에이전트는 일반적인 작업에서 뛰어난 성능을 보이지만, 배포 후에는 가중치가 고정되어 지속적인 적응에 어려움을 겪습니다. 기존 강화 학습(RL)은 이러한 문제를 해결할 수 있지만, 엄청난 계산 비용과 파국적 망각의 위험을 초래합니다. 우리는 그래디언트 업데이트 없이 테스트 시점의 정책 최적화를 가능하게 하는 학습이 필요 없는 프레임워크인 실시간 강화 학습(JitRL)을 소개합니다. JitRL은 경험의 동적이고 비모수적 메모리를 유지하며, 관련 경로를 검색하여 실시간으로 행동 이점을 추정합니다. 이러한 추정치는 LLM의 출력 로짓을 직접적으로 조절하는 데 사용됩니다. 우리는 이 가산 업데이트 규칙이 KL 제약 조건 하에서의 정책 최적화 목표에 대한 정확한 폐쇄형 해임을 이론적으로 증명했습니다. WebArena 및 Jericho에서의 광범위한 실험 결과, JitRL은 학습이 필요 없는 방법 중에서 새로운 최고 성능을 달성하는 것으로 나타났습니다. 특히, JitRL은 계산 비용이 많이 드는 미세 조정 방법(예: WebRL)보다 성능이 뛰어나면서도 비용을 30배 이상 절감하여, 지속적인 학습 에이전트를 위한 확장 가능한 경로를 제공합니다. 코드는 https://github.com/liushiliushi/JitRL 에서 확인할 수 있습니다.

Original Abstract

While Large Language Model (LLM) agents excel at general tasks, they inherently struggle with continual adaptation due to the frozen weights after deployment. Conventional reinforcement learning (RL) offers a solution but incurs prohibitive computational costs and the risk of catastrophic forgetting. We introduce Just-In-Time Reinforcement Learning (JitRL), a training-free framework that enables test-time policy optimization without any gradient updates. JitRL maintains a dynamic, non-parametric memory of experiences and retrieves relevant trajectories to estimate action advantages on-the-fly. These estimates are then used to directly modulate the LLM's output logits. We theoretically prove that this additive update rule is the exact closed-form solution to the KL-constrained policy optimization objective. Extensive experiments on WebArena and Jericho demonstrate that JitRL establishes a new state-of-the-art among training-free methods. Crucially, JitRL outperforms the performance of computationally expensive fine-tuning methods (e.g., WebRL) while reducing monetary costs by over 30 times, offering a scalable path for continual learning agents. The code is available at https://github.com/liushiliushi/JitRL.

3 Citations
0 Influential
39.01292546497 Altmetric
198.1 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!