2602.17550v1 Feb 19, 2026 cs.LG

MASPO: 강건하고 샘플 효율적인 LLM 추론을 위한 그래디언트 활용, 확률 질량 및 신호 신뢰성의 통합

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

Ke Zeng
Ke Zeng
Citations: 35
h-index: 3
Yangyi Fang
Yangyi Fang
Citations: 3
h-index: 1
Chaowen Hu
Chaowen Hu
Citations: 2
h-index: 1
Zekai Shao
Zekai Shao
Citations: 619
h-index: 8
Lu Pan
Lu Pan
Citations: 13
h-index: 1
Xunliang Cai
Xunliang Cai
Citations: 35
h-index: 3
Cong Qin
Cong Qin
Citations: 21
h-index: 3
Jiaye Lin
Jiaye Lin
Citations: 43
h-index: 3
Xiao Fu
Xiao Fu
Citations: 61
h-index: 3
Binbin Zheng
Binbin Zheng
Citations: 27
h-index: 3

GRPO와 같은 기존의 검증 가능한 보상 기반 강화학습(RLVR) 알고리즘은 대형 언어 모델(LLM)의 복잡한 최적화 다이내믹스와 근본적으로 어긋나는 경직되고 균일하며 대칭적인 신뢰 영역 메커니즘에 의존한다. 본 논문에서는 이러한 방법론에서 나타나는 세 가지 주요 문제점을 식별한다: (1) 하드 클리핑의 이진 차단으로 인해 발생하는 비효율적인 그래디언트 활용, (2) 토큰 분포를 무시하는 균일한 비율 제약으로 인해 발생하는 둔감한 확률 질량, (3) 긍정 샘플과 부정 샘플 간의 상이한 신용 할당 모호성에서 비롯되는 비대칭적인 신호 신뢰성. 이러한 간극을 해소하기 위해, 본 연구에서는 이 세 가지 차원을 조화시키도록 설계된 통합 프레임워크인 질량 적응형 소프트 정책 최적화(MASPO)를 제안한다. MASPO는 그래디언트 효용을 극대화하기 위한 미분 가능한 소프트 가우시안 게이팅, 확률 스펙트럼 전반에서 탐색의 균형을 맞추기 위한 질량 적응형 제한기, 그리고 업데이트 크기를 신호 신뢰도에 일치시키는 비대칭 위험 제어기를 통합한다. 광범위한 평가를 통해 MASPO가 강력한 베이스라인 모델들을 크게 능가하며, 강건한 올인원 RLVR 솔루션으로 기능함을 입증한다. 코드는 https://anonymous.4open.science/r/ma1/README.md 에서 확인할 수 있다.

Original Abstract

Existing Reinforcement Learning with Verifiable Rewards (RLVR) algorithms, such as GRPO, rely on rigid, uniform, and symmetric trust region mechanisms that are fundamentally misaligned with the complex optimization dynamics of Large Language Models (LLMs). In this paper, we identify three critical challenges in these methods: (1) inefficient gradient utilization caused by the binary cutoff of hard clipping, (2) insensitive probability mass arising from uniform ratio constraints that ignore the token distribution, and (3) asymmetric signal reliability stemming from the disparate credit assignment ambiguity between positive and negative samples. To bridge these gaps, we propose Mass-Adaptive Soft Policy Optimization (MASPO), a unified framework designed to harmonize these three dimensions. MASPO integrates a differentiable soft Gaussian gating to maximize gradient utility, a mass-adaptive limiter to balance exploration across the probability spectrum, and an asymmetric risk controller to align update magnitudes with signal confidence. Extensive evaluations demonstrate that MASPO serves as a robust, all-in-one RLVR solution, significantly outperforming strong baselines. Our code is available at: https://anonymous.4open.science/r/ma1/README.md.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!