2601.03661v1 Jan 07, 2026 cs.LG

AMIR-GRPO: GRPO에 내재된 선호도 신호를 유도하는 방법

AMIR-GRPO: Inducing Implicit Preference Signals into GRPO

Amir Hossein Yari
Amir Hossein Yari
Citations: 5
h-index: 1
Fajri Koto
Fajri Koto
Citations: 5
h-index: 1

강화 학습은 대규모 언어 모델(LLM)을 복잡한 추론 작업에 맞추는 주요 패러다임이 되었으며, 그룹 상대 정책 최적화(GRPO)는 대규모 후처리 학습에 널리 사용됩니다. 그러나 GRPO는 추론이 중요한 환경에서 구조적 한계를 가지고 있습니다. 시퀀스 레벨의 이점 정규화는 체계적인 길이 편향을 유발하고, 낮은 품질의 트래젝토리에 대한 페널티는 희석되며, 스칼라 객체 함수는 그룹 내 보상 순위에 내재된 풍부한 쌍별 선호도 정보를 무시합니다. 그 결과, 비용이 많이 드는 실행 데이터로부터 얻을 수 있는 귀중한 지도 신호가 충분히 활용되지 못하고 있습니다. 저희는 GRPO에 내재된 DPO 스타일의 대조 정규화 기법을 추가하여 AMIR-GRPO를 제안합니다. 이 기법은 그룹 내 보상 순위를 직접 활용하여 구축되며, 추가적인 어노테이션이 필요하지 않습니다. 이 메커니즘은 낮은 보상 트래젝토리에 대한 억제를 강화하고, 응답 레벨의 길이 편향을 완화하며, 각 실행 데이터 그룹을 더 밀집된 지도 제약 조건 집합으로 변환합니다. 여러 수학적 추론 벤치마크에서 AMIR-GRPO는 강력한 GRPO 기준 모델보다 일관되게 우수한 성능을 보이며, 올바른 및 잘못된 추론 과정 간의 명확한 구분을 제공하고, 표준 GRPO가 해결하는 인스턴스 집합을 넘어 더 광범위한 성능 향상을 제공합니다.

Original Abstract

Reinforcement learning has become the primary paradigm for aligning large language models (LLMs) on complex reasoning tasks, with group relative policy optimization (GRPO) widely used in large-scale post-training. However, GRPO faces structural limitations in reasoning-heavy settings: sequence-level advantage normalization introduces systematic length bias, penalties for low-quality trajectories are diluted, and the scalar objective discards rich pairwise preference information embedded in within-group reward rankings. As a result, valuable supervision from costly rollouts remains underutilized. We propose AMIR-GRPO, which augments GRPO with an implicit DPO-style contrastive regularizer constructed directly from intra-group reward rankings, requiring no additional annotations. This mechanism amplifies suppression of low-reward trajectories, attenuates response-level length bias, and transforms each rollout group into a denser set of supervision constraints. Across multiple mathematical reasoning benchmarks, AMIR-GRPO consistently outperforms strong GRPO baselines, yields clearer separation between correct and incorrect reasoning chains, and delivers broader coverage gains beyond the subset of instances solved by standard GRPO.

0 Citations
0 Influential
0.5 Altmetric
2.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!