2603.11682v1 Mar 12, 2026 cs.LG

엔트로피 보존 강화 학습

Entropy-Preserving Reinforcement Learning

Aleksei Petrenko
Aleksei Petrenko
University of Southern California
Citations: 711
h-index: 11
Ben Lipkin
Ben Lipkin
Citations: 347
h-index: 4
Kevin Chen
Kevin Chen
Citations: 159
h-index: 7
Erik Wijmans
Erik Wijmans
Citations: 2,271
h-index: 15
Marco Cusumano-Towner
Marco Cusumano-Towner
Citations: 141
h-index: 3
Raja Giryes
Raja Giryes
Citations: 129
h-index: 6
Philipp Krahenbuhl
Philipp Krahenbuhl
Citations: 141
h-index: 3

정책 경사 알고리즘은 최근 언어 모델 추론 분야에서 많은 발전을 이끌었습니다. 이러한 알고리즘의 매력적인 특징 중 하나는 자체 경로를 통해 탐색을 학습할 수 있다는 점이며, 이는 다양하고 창의적인 솔루션을 육성하는 데 매우 중요합니다. 본 논문에서 우리는 많은 정책 경사 알고리즘이 훈련 과정에서 엔트로피를 자연스럽게 감소시켜 탐색 경로의 다양성을 줄이며, 결과적으로 탐색 능력이 제한된 정책을 생성한다는 것을 보여줍니다. 따라서 본 논문에서는 훈련 과정 전반에 걸쳐 엔트로피를 적극적으로 모니터링하고 제어해야 한다고 주장합니다. 우리는 주요 정책 경사 목표 함수의 엔트로피 동역학에 대한 공식적인 분석을 수행하고, 엔트로피 동작에 상당한 영향을 미치는 경험적 요인(예: 숫자 정밀도)을 식별하며, 엔트로피 제어를 위한 명시적인 메커니즘을 제안합니다. 여기에는 장점 함수를 수정하여 엔트로피를 조절하는 알고리즘 패밀리인 REPO와, 적응적 비대칭 클리핑 접근 방식인 ADAPO가 포함됩니다. 우리의 엔트로피 보존 방법을 사용하여 훈련된 모델은 훈련 과정 전반에 걸쳐 다양성을 유지하며, 결과적으로 더 높은 성능을 보이는 정책을 생성하고, 새로운 환경에서의 순차적 학습을 위한 훈련 가능성을 유지합니다.

Original Abstract

Policy gradient algorithms have driven many recent advancements in language model reasoning. An appealing property is their ability to learn from exploration on their own trajectories, a process crucial for fostering diverse and creative solutions. As we show in this paper, many policy gradient algorithms naturally reduce the entropy -- and thus the diversity of explored trajectories -- as part of training, yielding a policy increasingly limited in its ability to explore. In this paper, we argue that entropy should be actively monitored and controlled throughout training. We formally analyze the contributions of leading policy gradient objectives on entropy dynamics, identify empirical factors (such as numerical precision) that significantly impact entropy behavior, and propose explicit mechanisms for entropy control. These include REPO, a family of algorithms that modify the advantage function to regulate entropy, and ADAPO, an adaptive asymmetric clipping approach. Models trained with our entropy-preserving methods maintain diversity throughout training, yielding final policies that are more performant and retain their trainability for sequential learning in new environments.

9 Citations
1 Influential
7.5 Altmetric
48.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!