2602.13949v1 Feb 15, 2026 cs.LG

경험 기반 강화 학습

Experiential Reinforcement Learning

Sihao Chen
Sihao Chen
Citations: 10
h-index: 2
Bowen Jiang
Bowen Jiang
Citations: 82
h-index: 4
Linxin Song
Linxin Song
Citations: 123
h-index: 7
Longqi Yang
Longqi Yang
Citations: 8
h-index: 2
Jieyu Zhao
Jieyu Zhao
Citations: 143
h-index: 4
Taiwei Shi
Taiwei Shi
Citations: 434
h-index: 9

강화 학습은 언어 모델(LM)이 환경으로부터 얻는 보상 또는 피드백을 통해 학습하는 핵심적인 접근 방식으로 자리 잡았습니다. 하지만 실제 환경에서 제공되는 피드백은 종종 희소하고 지연되는 경향이 있습니다. 이러한 신호로부터 학습하는 것은 어려운데, 언어 모델은 관찰된 실패가 향후 반복에서 어떤 행동 변화로 이어져야 하는지 암묵적으로 추론해야 하기 때문입니다. 본 논문에서는 경험 기반 강화 학습(ERL)이라는 새로운 학습 패러다임을 소개합니다. ERL은 강화 학습 과정에 명시적인 경험-성찰-통합 루프를 포함합니다. 주어진 작업에 대해 모델은 초기 시도를 수행하고, 환경으로부터 피드백을 받아, 정교화된 두 번째 시도를 안내하는 성찰을 생성합니다. 두 번째 시도의 성공은 강화되어 기본 정책에 통합됩니다. 이 과정은 피드백을 구조화된 행동 수정으로 변환하여 탐색을 개선하고 최적화를 안정화하며, 추가적인 추론 비용 없이 배포 단계에서 성능 향상을 가져옵니다. 희소 보상을 제공하는 제어 환경 및 에이전트 추론 벤치마크에서, ERL은 강력한 강화 학습 기준 모델보다 학습 효율성과 최종 성능을 꾸준히 향상시켰습니다. 특히 복잡한 다단계 환경에서는 최대 +81%, 도구 사용 추론 작업에서는 최대 +11%의 성능 향상을 달성했습니다. 이러한 결과는 정책 학습에 명시적인 자기 성찰을 통합하는 것이 피드백을 지속 가능한 행동 개선으로 변환하는 실용적인 메커니즘을 제공한다는 것을 시사합니다.

Original Abstract

Reinforcement learning has become the central approach for language models (LMs) to learn from environmental reward or feedback. In practice, the environmental feedback is usually sparse and delayed. Learning from such signals is challenging, as LMs must implicitly infer how observed failures should translate into behavioral changes for future iterations. We introduce Experiential Reinforcement Learning (ERL), a training paradigm that embeds an explicit experience-reflection-consolidation loop into the reinforcement learning process. Given a task, the model generates an initial attempt, receives environmental feedback, and produces a reflection that guides a refined second attempt, whose success is reinforced and internalized into the base policy. This process converts feedback into structured behavioral revision, improving exploration and stabilizing optimization while preserving gains at deployment without additional inference cost. Across sparse-reward control environments and agentic reasoning benchmarks, ERL consistently improves learning efficiency and final performance over strong reinforcement learning baselines, achieving gains of up to +81% in complex multi-step environments and up to +11% in tool-using reasoning tasks. These results suggest that integrating explicit self-reflection into policy training provides a practical mechanism for transforming feedback into durable behavioral improvement.

3 Citations
0 Influential
4.5 Altmetric
25.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!