2602.03392v1 Feb 03, 2026 cs.LG

대규모 언어 모델 강화 학습 미세 조정에서의 엔트로피 동역학 연구

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Yuexiang Xie
Yuexiang Xie
Citations: 1,296
h-index: 18
Wenhao Zhang
Wenhao Zhang
Citations: 69
h-index: 5
Yaliang Li
Yaliang Li
Citations: 4
h-index: 1
Yanxi Chen
Yanxi Chen
Citations: 174
h-index: 7
Shumin Wang
Shumin Wang
Citations: 9
h-index: 1
Yuchang Sun
Yuchang Sun
Citations: 68
h-index: 4
Yanyong Zhang
Yanyong Zhang
Citations: 9
h-index: 1

엔트로피는 대규모 언어 모델(LLM)이 생성하는 출력의 다양성을 측정하는 중요한 지표이며, 모델의 탐색 능력을 이해하는 데 중요한 정보를 제공합니다. 최근 연구에서는 강화 학습 미세 조정(RFT) 과정에서 탐색과 활용의 균형을 개선하기 위해 엔트로피를 모니터링하고 조정하는 데 점점 더 많은 관심을 기울이고 있지만, 이 과정에서의 엔트로피 동역학에 대한 체계적인 이해는 아직 충분히 연구되지 않았습니다. 본 논문에서는 RFT 과정에서의 엔트로피 동역학을 분석하기 위한 이론적 프레임워크를 제시합니다. 이는 단일 로짓 업데이트 하에서의 엔트로피 변화를 정량화하는 판별 표현에서 시작하여, 엔트로피 변화에 대한 1차 표현을 도출합니다. 이 표현은 그룹 상대 정책 최적화(GRPO)의 업데이트 공식으로 확장될 수 있습니다. 이론적 분석을 통해 얻은 결론과 통찰력은 엔트로피 제어 방법 설계에 영감을 주며, 기존 연구에서 제시된 다양한 엔트로피 기반 방법을 통일된 관점에서 해석할 수 있도록 합니다. 또한, 본 연구는 분석 결과의 주요 결론을 뒷받침하는 실증적 증거를 제공하고, 도출된 엔트로피 차별화 클리핑 방법의 효과를 입증합니다. 본 연구는 RFT 훈련 동역학에 대한 새로운 통찰력을 제공하며, LLM 미세 조정 과정에서 탐색-활용 균형을 최적화하기 위한 이론적 근거와 실용적인 전략을 제시합니다.

Original Abstract

Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.

2 Citations
0 Influential
9 Altmetric
47.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!