2604.07747v1 Apr 09, 2026 cs.AI

수학 RLVR에서 분포 편향 현상을 완화하는 방법: 분포 정렬 힌트 생성 및 역방향 힌트 서서히 제거

Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing

Cheng Yang
Cheng Yang
Citations: 109
h-index: 4
Peijin Xie
Peijin Xie
Citations: 7
h-index: 2
Chenghua Lin
Chenghua Lin
Citations: 9
h-index: 2

검증 가능한 보상을 사용하는 강화 학습(RLVR)은 낮은 k 값에서의 추론 정확도를 향상시킬 수 있지만, 어려운 수학 문제에 대한 해결책 범위는 좁힐 수 있습니다. 또한, pass@1 성능 향상이 반드시 큰 k 값에서의 더 나은 성능으로 이어지는 것은 아닙니다. 기존의 힌트 기반 접근 방식은 어려운 문제를 학습 가능하게 만들 수 있지만, 교사-학생 분포 불일치 문제와 힌트 노출을 줄여 힌트가 없는 평가와 일치시키는 문제에 대한 연구가 부족합니다. 우리는 이러한 문제를 해결하기 위해 두 가지 구성 요소를 사용합니다. 분포 정렬 힌트 생성(DAHS)은 학생의 응답 스타일에 맞춰 검증된 교사 힌트를 생성합니다. 역방향 힌트 서서히 제거(BHA)는 난이도 구간별로 힌트 노출을 점진적으로 줄이고, 각 문제에 대한 힌트 드롭아웃을 사용하여 RL 학습 전반에 걸쳐 힌트가 없는 업데이트를 유지합니다. 우리는 DAPO 학습 프레임워크를 사용하여 AIME24, AIME25, AIME26 데이터셋에서 $ exttt{Qwen3-1.7B-Base}$ 및 $ exttt{Llama-3.2-1B-Instruct}$ 모델을 사용하여 이 방법을 평가했습니다. $ exttt{Qwen3-1.7B-Base}$ 모델에서, 우리의 방법은 세 가지 AIME 벤치마크에서 DAPO 방법에 비해 pass@1 및 pass@2048 성능을 모두 향상시켰습니다. $ exttt{Llama-3.2-1B-Instruct}$ 모델에서는, 성능 향상이 주로 큰 k 값 영역에서 나타났습니다. 이러한 결과는 수학 RLVR에서 힌트 지도가 어려운 문제를 학습 가능한 상태로 만들고, 학습 초기 단계에서 효과적이지만, 힌트가 없는 평가 전에 점진적으로 제거되어야 함을 시사합니다.

Original Abstract

Reinforcement learning with verifiable rewards (RLVR) can improve low-$k$ reasoning accuracy while narrowing solution coverage on challenging math questions, and pass@1 gains do not necessarily translate into better large-$k$ performance. Existing hint-based approaches can make challenging questions trainable, but they leave two issues underexplored: teacher-student distribution mismatch and the need to reduce hint exposure to match no-hint evaluation. We address these issues through two components. Distribution-Aligned Hint Synthesis (DAHS) constructs verified teacher hints conditioned on student-style responses. Backward Hint Annealing (BHA) anneals hint exposure across difficulty buckets and uses per-question hint dropout to preserve no-hint updates throughout RL training. We evaluate the method in math RLVR under the DAPO training framework across AIME24, AIME25, and AIME26 using $\texttt{Qwen3-1.7B-Base}$ and $\texttt{Llama-3.2-1B-Instruct}$. On $\texttt{Qwen3-1.7B-Base}$, our method improves both pass@1 and pass@2048 relative to DAPO across the three AIME benchmarks. On $\texttt{Llama-3.2-1B-Instruct}$, the gains are concentrated in the large-$k$ regime. These results suggest that, in math RLVR, hint scaffolding is effective when it restores learnable updates on challenging questions early in training and is then gradually removed before no-hint evaluation.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!