정책 분할: 이중 모드 엔트로피 정규화를 통한 LLM 강화 학습에서의 이중 모드 탐색 장려
Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization
대규모 언어 모델(LLM) 강화 학습(RL)에서 정확도를 손상시키지 않으면서 다양한 탐색을 장려하기 위해, 우리는 새로운 패러다임인 '정책 분할(Policy Split)'을 제안합니다. 이 방법은 고-엔트로피 프롬프트를 사용하여 정책을 일반 모드와 고-엔트로피 모드로 분리합니다. 두 모드는 공유 모델 파라미터를 사용하지만, 서로 다른 목표에 맞춘 협력적인 이중 모드 엔트로피 정규화를 거칩니다. 구체적으로, 일반 모드는 작업의 정확성을 최적화하고, 고-엔트로피 모드는 탐색에 대한 선호를 포함하며, 두 모드는 협력적으로 학습합니다. 광범위한 실험 결과, 제안하는 방법이 다양한 모델 크기에서 일반 및 창의적인 작업 전반에 걸쳐 기존의 엔트로피 기반 RL 방법보다 일관되게 우수한 성능을 보임을 보여줍니다. 추가 분석 결과, 정책 분할은 이중 모드 탐색을 촉진하며, 고-엔트로피 모드는 일반 모드와는 다른 독특한 행동 패턴을 생성하여 고유한 학습 신호를 제공합니다.
To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose Policy Split, a novel paradigm that bifurcates the policy into normal and high-entropy modes with a high-entropy prompt. While sharing model parameters, the two modes undergo collaborative dual-mode entropy regularization tailored to distinct objectives. Specifically, the normal mode optimizes for task correctness, while the high-entropy mode incorporates a preference for exploration, and the two modes learn collaboratively. Extensive experiments demonstrate that our approach consistently outperforms established entropy-guided RL baselines across various model sizes in general and creative tasks. Further analysis reveals that Policy Split facilitates dual-mode exploration, where the high-entropy mode generates distinct behavioral patterns to the normal mode, providing unique learning signals.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.