2602.01103v1 Feb 01, 2026 cs.AI

목적 함수 수준의 해킹 관점에서 본 RLVR 학습 불안정성 규명

Probing RLVR training instability through the lens of objective-level hacking

Xinyu Zhu
Xinyu Zhu
Citations: 160
h-index: 5
Kun Fu
Kun Fu
Citations: 61
h-index: 4
Haoyu Li
Haoyu Li
Citations: 1
h-index: 1
Jieping Ye
Jieping Ye
Citations: 64
h-index: 4
Yiming Dong
Yiming Dong
Citations: 20
h-index: 3
Lijing Shao
Lijing Shao
Citations: 50
h-index: 4
Yurou Liu
Yurou Liu
Citations: 41
h-index: 1
Zheng Wang
Zheng Wang
Citations: 489
h-index: 7

검증 가능한 보상을 활용한 강화 학습(RLVR)을 장기간 수행하면 거대 언어 모델의 추론 능력을 지속적으로 향상시킬 수 있음이 밝혀졌으나, 이러한 학습 과정은 특히 전문가 혼합(MoE) 아키텍처에서 불안정해지기 쉽습니다. 학습 불안정성은 모델 성능 향상을 심각하게 저해하지만, 그 근본적인 원인과 메커니즘은 아직 제대로 이해되지 않고 있습니다. 본 연구에서는 '목적 함수 수준의 해킹(objective-level hacking)'이라는 관점을 통해 RLVR의 불안정성을 이해하기 위한 원칙적인 프레임워크를 소개합니다. 취약한 검증기를 악용하여 발생하는 보상 해킹(reward hacking)과 달리, 목적 함수 수준의 해킹은 토큰 수준의 기여도 불일치(credit misalignment)에서 기인하며 최적화 목적 함수 내에서 시스템 수준의 허위 신호(spurious signals)로 나타납니다. 제안된 프레임워크와 30B MoE 모델에 대한 광범위한 실험을 바탕으로, 우리는 MoE 모델의 주요 병리적 학습 역학인 '학습-추론 불일치의 비정상적 증가'의 기원을 추적하고 그 이면의 메커니즘을 공식화합니다. 이 현상은 불안정성과 밀접하게 관련되어 있지만 이전에는 기계론적 설명이 부족했습니다. 이러한 연구 결과는 MoE 모델의 불안정성 기저에 있는 학습 역학에 대해 구체적이고 인과적인 설명을 제공하며, 안정적인 RLVR 알고리즘 설계를 위한 지침을 제시합니다.

Original Abstract

Prolonged reinforcement learning with verifiable rewards (RLVR) has been shown to drive continuous improvements in the reasoning capabilities of large language models, but the training is often prone to instabilities, especially in Mixture-of-Experts (MoE) architectures. Training instability severely undermines model capability improvement, yet its underlying causes and mechanisms remain poorly understood. In this work, we introduce a principled framework for understanding RLVR instability through the lens of objective-level hacking. Unlike reward hacking, which arises from exploitable verifiers, objective-level hacking emerges from token-level credit misalignment and is manifested as system-level spurious signals in the optimization objective. Grounded in our framework, together with extensive experiments on a 30B MoE model, we trace the origin and formalize the mechanism behind a key pathological training dynamic in MoE models: the abnormal growth of the training-inference discrepancy, a phenomenon widely associated with instability but previously lacking a mechanistic explanation. These findings provide a concrete and causal account of the training dynamics underlying instabilities in MoE models, offering guidance for the design of stable RLVR algorithms.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!