정확성이 다양성보다 중요: 고정밀 보상이 강력한 지시 따르기 성능으로 이어짐
Precision over Diversity: High-Precision Reward Generalizes to Robust Instruction Following
지시 따르기(Instruction Following, IF) 작업에서 검증 가능한 보상을 활용한 강화 학습의 성공적인 확장을 위해서는, 다양한 종류의 검증 가능한 제약 조건과 검증 불가능한 제약 조건을 혼합하는 것이 중요하다고 여겨져 왔습니다. 본 연구에서는 체계적인 실험을 통해 이러한 기존의 관념에 도전합니다. 놀랍게도, 우리는 오직 엄격한 제약 조건만을 사용하여 학습된 모델이 혼합된 데이터셋으로 학습된 모델보다 꾸준히 더 우수한 성능을 보인다는 것을 발견했습니다. 광범위한 실험 결과, 효과적인 성능 향상의 주요 요인은 제약 조건의 다양성이 아닌, 보상의 정확도라는 것을 보여줍니다. LLM 평가 모델은 잘못된 응답을 탐지하는 능력(recall rate)이 낮아 심각한 보상 해킹(reward hacking)을 유발하며, 이는 다양성의 이점을 저해합니다. 또한, 어텐션 메커니즘 분석 결과, 고정밀 보상은 지시 따르기에 필요한 전이 가능한 메타-스킬을 개발하는 것으로 나타났습니다. 이러한 통찰력을 바탕으로, 우리는 보상의 정확성을 우선시하는 간단하면서도 효과적인 데이터 중심 개선 전략을 제안합니다. 5가지 벤치마크에서 평가한 결과, 제안하는 방법은 경쟁적인 기준 모델보다 13.4% 더 높은 성능을 보였으며, 훈련 시간을 58% 단축했습니다. 또한, 지시 따르기 외에도 강력한 일반화 성능을 유지했습니다. 이러한 결과는 데이터 다양성을 무분별하게 추구하는 기존의 패러다임에서 벗어나, 고정밀 보상을 지향하는 새로운 접근 방식으로 전환해야 함을 시사합니다.
A central belief in scaling reinforcement learning with verifiable rewards for instruction following (IF) tasks is that, a diverse mixture of verifiable hard and unverifiable soft constraints is essential for generalizing to unseen instructions. In this work, we challenge this prevailing consensus through a systematic empirical investigation. Counter-intuitively, we find that models trained on hard-only constraints consistently outperform those trained on mixed datasets. Extensive experiments reveal that reward precision, rather than constraint diversity, is the primary driver of effective alignment. The LLM judge suffers from a low recall rate in detecting false response, which leads to severe reward hacking, thereby undermining the benefits of diversity. Furthermore, analysis of the attention mechanism reveals that high-precision rewards develop a transferable meta-skill for IF. Motivated by these insights, we propose a simple yet effective data-centric refinement strategy that prioritizes reward precision. Evaluated on five benchmarks, our approach outperforms competitive baselines by 13.4\% in performance while achieving a 58\% reduction in training time, maintaining strong generalization beyond instruction following. Our findings advocate for a paradigm shift: moving away from the indiscriminate pursuit of data diversity toward high-precision rewards.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.