ARROW: 견고한 환경 모델을 위한 증강된 반복 학습
ARROW: Augmented Replay for RObust World models
지속적인 강화 학습은 에이전트가 새로운 기술을 습득하는 동시에 이전에 학습한 기술을 유지하도록 요구하며, 이는 과거 및 미래 작업 모두에서 성능을 향상시키는 것을 목표로 합니다. 대부분의 기존 접근 방식은 파국적인 망각을 완화하기 위해 리플레이 버퍼를 사용하는 모델 기반 방법론에 의존하지만, 이러한 솔루션은 종종 큰 메모리 요구 사항으로 인해 상당한 확장성 문제를 안고 있습니다. 신경과학에서 뇌가 정책에 직접적으로 적용하는 대신 예측적 환경 모델에 경험을 반복한다는 영감을 받아, 우리는 ARROW(Augmented Replay for RObust World models)라는 모델 기반의 지속적인 강화 학습 알고리즘을 제안합니다. ARROW는 DreamerV3를 확장하여 메모리 효율적인 분포 매칭 리플레이 버퍼를 사용합니다. 표준 고정 크기 FIFO 버퍼와 달리, ARROW는 최근 경험을 위한 단기 버퍼와 지능적인 샘플링을 통해 작업 다양성을 유지하는 장기 버퍼라는 두 가지 상호 보완적인 버퍼를 유지합니다. 우리는 ARROW를 두 가지 어려운 지속적인 강화 학습 환경에서 평가했습니다. 첫째는 공유 구조가 없는 작업(Atari)이고, 둘째는 지식 전달이 가능한 공유 구조가 있는 작업(Procgen CoinRun 변형)입니다. 동일한 크기의 리플레이 버퍼를 사용하는 모델 기반 및 모델 기반 기준 모델과 비교했을 때, ARROW는 공유 구조가 없는 작업에서 현저히 낮은 망각 현상을 보였으며, 동시에 유사한 전이 학습 성능을 유지했습니다. 이러한 결과는 모델 기반 강화 학습 및 생물학적 영감을 받은 접근 방식이 지속적인 강화 학습에 잠재력을 가지고 있음을 보여주며, 추가 연구를 통해 더 많은 가능성을 탐색할 수 있음을 시사합니다.
Continual reinforcement learning challenges agents to acquire new skills while retaining previously learned ones with the goal of improving performance in both past and future tasks. Most existing approaches rely on model-free methods with replay buffers to mitigate catastrophic forgetting; however, these solutions often face significant scalability challenges due to large memory demands. Drawing inspiration from neuroscience, where the brain replays experiences to a predictive World Model rather than directly to the policy, we present ARROW (Augmented Replay for RObust World models), a model-based continual RL algorithm that extends DreamerV3 with a memory-efficient, distribution-matching replay buffer. Unlike standard fixed-size FIFO buffers, ARROW maintains two complementary buffers: a short-term buffer for recent experiences and a long-term buffer that preserves task diversity through intelligent sampling. We evaluate ARROW on two challenging continual RL settings: Tasks without shared structure (Atari), and tasks with shared structure, where knowledge transfer is possible (Procgen CoinRun variants). Compared to model-free and model-based baselines with replay buffers of the same-size, ARROW demonstrates substantially less forgetting on tasks without shared structure, while maintaining comparable forward transfer. Our findings highlight the potential of model-based RL and bio-inspired approaches for continual reinforcement learning, warranting further research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.