2603.18756v1 Mar 19, 2026 cs.LG

LLM이 추론 능력을 갖추도록 하기 위해 복잡한 손실 함수가 필수적인가?

Are complicated loss functions necessary for teaching LLMs to reason?

Nicolò Brunello
Nicolò Brunello
Citations: 27
h-index: 2
Gabriele Carrino
Gabriele Carrino
Citations: 1
h-index: 1
Andrea Sassella
Andrea Sassella
Citations: 4
h-index: 1
Federico Toschi
Federico Toschi
Citations: 13
h-index: 2
M. Carman
M. Carman
Citations: 27
h-index: 2

최근 대규모 언어 모델(LLM)의 발전은 추론 능력 및 수학적 능력을 향상시키기 위한 후처리 기술의 중요성을 강조합니다. 그룹 상대 정책 최적화(GRPO)는 그룹 상대적인 이점 추정, PPO 스타일의 클리핑, KL 정규화를 결합하여 이 분야에서 유망한 결과를 보여주었습니다. 그러나 GRPO의 복잡성은 모든 구성 요소가 추론 능력을 향상시키는 데 필수적인지 의문을 제기합니다. 본 연구에서는 GRPO에 대한 체계적인 분석을 수행하고 두 가지 주요 결과를 확인했습니다. (1) 부정적인 피드백을 통합하는 것이 필수적이며, 기준선 이상의 행동에만 집중하는 학습은 학습 능력을 제한합니다. (2) 정책 비율 클리핑과 같은 PPO 스타일의 제약 조건은 수학적 추론 또는 성능을 향상시키는 데 필요하지 않습니다. 이러한 통찰력을 바탕으로, 그룹 상대적인 이점 추정은 유지하면서 PPO 스타일의 클리핑 및 정책 비율 항을 제거한 간소화된 변형인 REINFORCE with Group Relative Advantage (RGRA)를 제안합니다. 표준 수학적 벤치마크를 사용한 실험 결과, RGRA는 GRPO보다 더 강력한 성능을 달성할 수 있는 잠재력이 있음을 나타냅니다. 본 연구의 결과는 더 간단한 REINFORCE 기반 접근 방식이 LLM의 추론 능력을 효과적으로 향상시킬 수 있으며, GRPO에 대한 보다 투명하고 효율적인 대안을 제공한다는 것을 시사합니다.

Original Abstract

Recent advances in large language models (LLMs) highlight the importance of post training techniques for improving reasoning and mathematical ability. Group Relative Policy Optimization (GRPO) has shown promise in this domain by combining group relative advantage estimation, PPO style clipping, and KL regularization. However, its complexity raises the question of whether all components are necessary for fostering reasoning behaviors. We conduct a systematic analysis of GRPO and identify two key findings: (1) incorporating negative feedback is essential training solely on actions above a baseline limits learning; and (2) PPO style constraints, such as policy ratio clipping, are not required to improve mathematical reasoning or performance. Building on these insights, we propose REINFORCE with Group Relative Advantage (RGRA), a simplified variant that retains group relative advantage estimation but removes PPO style clipping and policy ratio terms. Experiments across standard mathematical benchmarks indicate that RGRA has the potential to achieve stronger performance than GRPO. Our results suggest that simpler REINFORCE based approaches can effectively enhance reasoning in LLMs, offering a more transparent and efficient alternative to GRPO.

1 Citations
0 Influential
1 Altmetric
6.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!