LLM 기반 강화 학습을 위한 진화적 시스템 프롬프트 학습
Evolutionary System Prompt Learning for Reinforcement Learning in LLMs
자율적으로 경험을 통해 스스로 개선하는 에이전트 시스템 구축은 인공지능 분야의 오랜 목표입니다. 현재의 대규모 언어 모델(LLM)은 주로 자기 성찰을 통해 컨텍스트를 업데이트하고, 강화 학습(RL)을 통해 가중치를 업데이트하는 두 가지 메커니즘을 통해 자체 개선을 수행합니다. 본 연구에서는 모델 컨텍스트와 모델 가중치를 동시에 개선하는 방법인 진화적 시스템 프롬프트 학습(E-SPL)을 제안합니다. E-SPL은 각 RL 반복 과정에서 여러 시스템 프롬프트 하에서 동시에 트레이젝토리를 샘플링하고, LLM 가중치에 대한 RL 업데이트와 시스템 프롬프트에 대한 진화적 업데이트를 동시에 적용합니다. 시스템 프롬프트는 LLM의 자기 성찰에 의해 구동되는 변이 및 교차, 두 가지 유전 연산자를 통해 진화하며, 선택은 RL 반복 과정을 통해 업데이트되는 상대적인 성능 평가를 기반으로 이루어집니다. E-SPL은 프롬프트에 인코딩된 선언적 지식과 가중치에 인코딩된 절차적 지식 간의 자연스러운 분리를 촉진하여, 추론 및 에이전트 관련 작업에서 성능을 향상시킵니다. 예를 들어, 쉬움에서 어려움(AIME $ ightarrow$ BeyondAIME)으로의 일반화 설정에서, E-SPL은 RL 성공률을 38.8%에서 45.1%로 향상시키면서, 자기 성찰 기반 프롬프트 진화(40.0%)보다 우수한 성능을 보였습니다. 전반적으로, 본 연구의 결과는 강화 학습과 시스템 프롬프트 진화가 깊이 상호 보완적이며, 이 두 가지를 결합하면 샘플 효율성과 일반화 성능에서 일관된 이점을 얻을 수 있음을 보여줍니다. 코드: https://github.com/LunjunZhang/E-SPL
Building agentic systems that can autonomously self-improve from experience is a longstanding goal of AI. Large language models (LLMs) today primarily self-improve via two mechanisms: self-reflection for context updates, and reinforcement learning (RL) for weight updates. In this work, we propose Evolutionary System Prompt Learning (E-SPL), a method for jointly improving model contexts and model weights. In each RL iteration, E-SPL samples trajectories under multiple system prompts in parallel, then jointly applies RL updates to LLM weights and evolutionary updates to system prompts. System prompts evolve via mutation and crossover, two genetic operators driven by LLM self-reflection; selection is based on relative performance ratings updated across RL iterations. E-SPL encourages a natural division between declarative knowledge encoded in prompts and procedural knowledge encoded in weights, resulting in improved performance across reasoning and agentic tasks. For instance, in an easy-to-hard (AIME $\rightarrow$ BeyondAIME) generalization setting, E-SPL improves RL success rate from 38.8% $\rightarrow$ 45.1% while also outperforming reflective prompt evolution (40.0%). Overall, our results demonstrate that RL and system prompt evolution are deeply synergistic, and combining the two yields consistent gains in sample efficiency and generalization. Code: https://github.com/LunjunZhang/E-SPL
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.