MIRA: 제한된 LLM 지도를 활용한 메모리 통합 강화학습 에이전트
MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance
강화학습(RL) 에이전트는 제한된 사전 구조로 인해 희소하거나 지연된 보상 환경에서 종종 높은 표본 복잡성 문제를 겪는다. 대형 언어 모델(LLM)은 하위 목표 분해, 타당한 궤적, 그리고 초기 학습을 촉진하는 추상적 사전 지식을 제공할 수 있다. 그러나 LLM 감독에 크게 의존하는 것은 확장성 제약을 초래하고 잠재적으로 신뢰할 수 없는 신호에 대한 의존도를 높인다. 우리는 초기 훈련을 안내하기 위해 구조화되고 진화하는 메모리 그래프를 통합하는 MIRA(Memory-Integrated Reinforcement Learning Agent)를 제안한다. 이 그래프는 궤적 세그먼트와 하위 목표 구조를 포함하여 의사 결정과 관련된 정보를 저장하며, 에이전트의 높은 보상을 달성한 경험과 LLM 출력 모두로부터 구성된다. 이러한 설계는 지속적인 실시간 감독을 요구하는 대신, LLM 질의(query)를 영구 메모리에 분할 상환(amortize)하여 처리함으로써 비용을 줄인다. 우리는 이 메모리 그래프로부터 기본 보상 함수를 수정하지 않고도 정책 업데이트에 영향을 미치도록 이점 추정(advantage estimation)을 부드럽게 조정하는 유틸리티 신호를 도출한다. 훈련이 진행됨에 따라 에이전트의 정책은 점진적으로 초기 LLM 파생 사전 지식을 능가하게 되며, 유틸리티 항은 감소하여 표준 수렴 보장성을 유지한다. 우리는 희소 보상 환경에서 유틸리티 기반 셰이핑(utility-based shaping)이 초기 단계 학습을 향상시킨다는 점을 보여주는 이론적 분석을 제공한다. 경험적으로, MIRA는 강화학습 베이스라인을 능가하며 빈번한 LLM 감독에 의존하는 접근법과 필적하는 보상을 달성하면서도 온라인 LLM 질의를 상당히 적게 요구한다. 프로젝트 웹페이지: https://narjesno.github.io/MIRA/
Reinforcement learning (RL) agents often suffer from high sample complexity in sparse or delayed reward settings due to limited prior structure. Large language models (LLMs) can provide subgoal decompositions, plausible trajectories, and abstract priors that facilitate early learning. However, heavy reliance on LLM supervision introduces scalability constraints and dependence on potentially unreliable signals. We propose MIRA (Memory-Integrated Reinforcement Learning Agent), which incorporates a structured, evolving memory graph to guide early training. The graph stores decision-relevant information, including trajectory segments and subgoal structures, and is constructed from both the agent's high-return experiences and LLM outputs. This design amortizes LLM queries into a persistent memory rather than requiring continuous real-time supervision. From this memory graph, we derive a utility signal that softly adjusts advantage estimation to influence policy updates without modifying the underlying reward function. As training progresses, the agent's policy gradually surpasses the initial LLM-derived priors, and the utility term decays, preserving standard convergence guarantees. We provide theoretical analysis showing that utility-based shaping improves early-stage learning in sparse-reward environments. Empirically, MIRA outperforms RL baselines and achieves returns comparable to approaches that rely on frequent LLM supervision, while requiring substantially fewer online LLM queries. Project webpage: https://narjesno.github.io/MIRA/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.