강화 학습을 위한 힌트 학습
Learning to Hint for Reinforcement Learning
그룹 상대 정책 최적화(GRPO)는 검증 가능한 보상을 사용하는 강화 학습에 널리 사용되지만, 종종 '장점 붕괴' 문제를 겪습니다. 이는 그룹 내 모든 시뮬레이션이 동일한 보상을 받을 때, 그룹의 상대적인 장점이 0이 되어 학습 신호가 발생하지 않는 현상입니다. 예를 들어, 문제 해결자가 문제를 너무 어렵게 느끼면, 샘플링된 모든 시뮬레이션이 잘못되어 0의 보상을 받을 수 있습니다. 최근 연구에서는 이러한 문제를 해결하기 위해, 어려운 문제에 힌트 또는 보조 구조를 추가하여 문제 해결자가 다양한 결과를 생성하고 0이 아닌 업데이트를 얻도록 합니다. 그러나 기존 힌트는 일반적으로 현재 문제 해결자에 맞춰 조정되지 않으며, 힌트가 주어진 입력에서 학습 신호를 생성하더라도, 테스트 시점에 사용되는 힌트가 없는 정책을 반드시 개선하는 것은 아닙니다. 이에, 본 연구에서는 강화 학습을 위한 힌트 학습(HiLL)이라는 프레임워크를 제안합니다. HiLL은 강화 학습 과정에서 힌트를 생성하는 정책과 문제 해결 정책을 동시에 학습합니다. 각 어려운 문제에 대해, 힌트 생성 정책은 현재 문제 해결자의 잘못된 시뮬레이션 결과에 따라 실시간으로 힌트를 생성하여, 힌트 생성이 문제 해결자의 변화하는 오류에 적응하도록 합니다. 또한, '힌트 의존성'이라는 개념을 도입하여, 올바른 힌트가 주어진 경로가 힌트에 얼마나 의존하는지 측정합니다. 우리는 힌트 의존성이 낮을수록 힌트가 주어진 성공에서 힌트가 없는 성공으로의 전달이 더 강하다는 전이성을 유도하고, 이를 사용하여 힌트 생성 정책을 학습하기 위한 전이 가중 보상을 정의합니다. 따라서 HiLL은 정보적인 GRPO 그룹을 복원할 뿐만 아니라, 원래의 힌트가 없는 정책을 개선할 가능성이 더 높은 신호를 생성하는 힌트를 선호합니다. 여러 벤치마크에서 수행된 실험 결과, HiLL은 GRPO 및 기존 힌트 기반 모델보다 일관되게 우수한 성능을 보이며, RL을 위한 적응적이고 전이성을 고려한 힌트 학습의 가치를 입증합니다. 관련 코드는 https://github.com/Andree-9/HiLL 에서 확인할 수 있습니다.
Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.