대규모 언어 모델을 활용한 강화 학습 알고리즘의 진화적 발견
Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models
강화 학습 알고리즘은 일반적으로 수동으로 설계되고 고정된 학습 업데이트 규칙에 의해 정의됩니다. 본 연구에서는 완전한 학습 절차를 구현하는 실행 가능한 업데이트 규칙을 직접 검색하여 강화 학습 알고리즘을 발견하는 진화적 프레임워크를 제시합니다. 이 접근 방식은 REvolve라는 진화 시스템을 기반으로 하며, 이 시스템은 대규모 언어 모델을 생성 변이 연산자로 활용합니다. 또한, 이 프레임워크는 보상 함수 발견에서 알고리즘 발견으로 확장됩니다. 표준적인 학습 규칙의 출현을 촉진하기 위해, 액터-크리틱 구조, 시간 차이 손실, 가치 부트스트래핑과 같은 일반적인 메커니즘을 검색에서 제외합니다. 강화 학습 알고리즘은 내부 스칼라 매개변수에 매우 민감하기 때문에, 진화 과정 이후에 대규모 언어 모델이 각 진화된 업데이트 규칙에 대한 실현 가능한 하이퍼파라미터 범위를 제안하는 정제 단계를 도입합니다. 여러 Gymnasium 벤치마크에서 전체 학습 런을 통해 평가된 결과, 발견된 알고리즘은 SAC, PPO, DQN, A2C와 같은 기존의 기준 알고리즘과 경쟁력 있는 성능을 달성했습니다.
Reinforcement learning algorithms are defined by their learning update rules, which are typically hand-designed and fixed. We present an evolutionary framework for discovering reinforcement learning algorithms by searching directly over executable update rules that implement complete training procedures. The approach builds on REvolve, an evolutionary system that uses large language models as generative variation operators, and extends it from reward-function discovery to algorithm discovery. To promote the emergence of nonstandard learning rules, the search excludes canonical mechanisms such as actor--critic structures, temporal-difference losses, and value bootstrapping. Because reinforcement learning algorithms are highly sensitive to internal scalar parameters, we introduce a post-evolution refinement stage in which a large language model proposes feasible hyperparameter ranges for each evolved update rule. Evaluated end-to-end by full training runs on multiple Gymnasium benchmarks, the discovered algorithms achieve competitive performance relative to established baselines, including SAC, PPO, DQN, and A2C.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.