2602.02301v2 Feb 02, 2026 cs.CL

모듈화된 그래디언트 서저리를 활용한 범용 추론 모델 발전

Advancing General-Purpose Reasoning Models with Modular Gradient Surgery

Min Cai
Min Cai
Citations: 93
h-index: 5
Yu Liang
Yu Liang
Citations: 2,034
h-index: 1
Longzheng Wang
Longzheng Wang
Citations: 42
h-index: 2
Yan Wang
Yan Wang
Citations: 2,084
h-index: 5
Yueyang Zhang
Yueyang Zhang
Citations: 0
h-index: 0
Long Xia
Long Xia
Citations: 0
h-index: 0
Zhiyuan Sun
Zhiyuan Sun
Citations: 0
h-index: 0
Xi Ye
Xi Ye
Citations: 1,646
h-index: 18
Daiting Shi
Daiting Shi
Citations: 4
h-index: 1

최근 대규모 추론 모델(LRM)의 발전에서 강화 학습(RL)은 검증 가능하고 개방형 추론에 상당한 기여를 해왔습니다. 그러나 다양한 도메인에 걸쳐 단일의 범용 LRM을 학습하는 것은 두드러진 도메인 이질성으로 인해 여전히 어려운 과제입니다. 본 연구에서는 널리 사용되는 두 가지 전략, 즉 순차적 강화 학습과 혼합 강화 학습에 대한 체계적인 연구를 통해, 두 전략 모두 행동 및 그래디언트 수준에서 상당한 교차 도메인 간섭을 야기하며, 이는 전체적인 성능 향상에 제한을 둡니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 트랜스포머 내의 모듈 수준에서 그래디언트 충돌을 해결하는 **M**odular **G**radient **S**urgery (**MGS**)를 제안합니다. Llama 및 Qwen 모델에 MGS를 적용한 결과, 세 가지 대표적인 도메인(수학, 일반 채팅, 지시 따르기)에서 표준 멀티 태스크 강화 학습에 비해 각각 평균 4.3 (16.6%) 및 4.5 (11.1%) 포인트의 성능 향상을 달성했습니다. 추가 분석 결과, MGS는 장기간 학습에서도 효과적임을 확인했습니다. 전반적으로, 본 연구는 다중 도메인 강화 학습에서 발생하는 간섭의 원인을 명확히 하고, 범용 LRM을 학습하기 위한 효과적인 해결책을 제시합니다.

Original Abstract

Reinforcement learning (RL) has played a central role in recent advances in large reasoning models (LRMs), yielding strong gains in verifiable and open-ended reasoning. However, training a single general-purpose LRM across diverse domains remains challenging due to pronounced domain heterogeneity. Through a systematic study of two widely used strategies, Sequential RL and Mixed RL, we find that both incur substantial cross-domain interference at the behavioral and gradient levels, resulting in limited overall gains. To address these challenges, we introduce **M**odular **G**radient **S**urgery (**MGS**), which resolves gradient conflicts at the module level within the transformer. When applied to Llama and Qwen models, MGS achieves average improvements of 4.3 (16.6\%) and 4.5 (11.1\%) points, respectively, over standard multi-task RL across three representative domains (math, general chat, and instruction following). Further analysis demonstrates that MGS remains effective under prolonged training. Overall, our study clarifies the sources of interference in multi-domain RL and presents an effective solution for training general-purpose LRMs.

0 Citations
0 Influential
9 Altmetric
45.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!