HEALing 엔트로피 붕괴: 하이브리드 도메인 엔트로피 동역학 정렬을 통한 소량 데이터 강화 학습 기반 추론 모델 성능 향상
HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment
검증 가능한 보상을 활용한 강화 학습(RLVR)은 추론 능력을 갖춘 대규모 언어 모델 훈련에 효과적인 것으로 입증되었지만, 기존 방법들은 대부분 풍부한 훈련 데이터를 활용하는 고자원 환경을 전제로 합니다. 저자원 환경에서는 RLVR이 더 심각한 엔트로피 붕괴 현상을 겪게 되는데, 이는 탐색 능력을 제한하고 추론 성능을 저하시킵니다. 이러한 문제를 해결하기 위해, 본 논문에서는 소량 데이터 RLVR에 특화된 프레임워크인 Hybrid-domain Entropy dynamics ALignment (HEAL)을 제안합니다. HEAL은 먼저, 다양한 탐색을 촉진하기 위해 고가치 일반 도메인 데이터를 선택적으로 활용합니다. 또한, 목표 도메인과 일반 도메인 간의 경로 수준 엔트로피 동역학을 정렬하는 보상 메커니즘인 Entropy Dynamics Alignment (EDA)를 도입합니다. EDA는 엔트로피 크기뿐만 아니라 미세한 변화까지 포착하여 엔트로피 붕괴를 더욱 완화할 뿐만 아니라, 정책이 일반 도메인에서 더 다양한 탐색 행동을 학습하도록 유도합니다. 다양한 도메인에서의 실험 결과, HEAL은 소량 데이터 RLVR의 성능을 꾸준히 향상시키는 것으로 나타났습니다. 특히, HEAL은 목표 도메인 샘플 32개만을 사용하여 1,000개의 목표 도메인 샘플로 훈련된 풀샷 RLVR의 성능에 버금가거나 그 이상의 성능을 보였습니다.
Reinforcement Learning with Verifiable Reward (RLVR) has proven effective for training reasoning-oriented large language models, but existing methods largely assume high-resource settings with abundant training data. In low-resource scenarios, RLVR is prone to more severe entropy collapse, which substantially limits exploration and degrades reasoning performance. To address this issue, we propose Hybrid-domain Entropy dynamics ALignment (HEAL), a framework tailored for few-shot RLVR. HEAL first selectively incorporates high-value general-domain data to promote more diverse exploration. Then, we introduce Entropy Dynamics Alignment (EDA), a reward mechanism that aligns trajectory-level entropy dynamics between the target and general domains, capturing both entropy magnitude and fine-grained variation. Through this alignment, EDA not only further mitigates entropy collapse but also encourages the policy to acquire more diverse exploration behaviors from the general domain. Experiments across multiple domains show that HEAL consistently improves few-shot RLVR performance. Notably, using only 32 target-domain samples, HEAL matches or even surpasses full-shot RLVR trained with 1K target-domain samples.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.