2601.14695v1 Jan 21, 2026 cs.LG

CoScale-RL: 데이터 및 연산 자원을 효율적으로 활용한 효율적인 추가 학습 방법

CoScale-RL: Efficient Post-Training by Co-Scaling Data and Computation

Yutong Chen
Yutong Chen
Citations: 55
h-index: 3
Jiandong Gao
Jiandong Gao
Citations: 56
h-index: 4
Ji Wu
Ji Wu
Citations: 4
h-index: 2

대규모 추론 모델(LRM)의 학습은 일반적으로 불안정하고 예측하기 어려우며, 특히 어려운 문제나 기반 모델이 취약한 경우 더욱 그렇습니다. 우리는 현재의 추가 학습 확장 전략이 이러한 경우에도 여전히 성능 향상을 가져올 수 있다는 것을 확인했습니다. 본 논문에서는 데이터 및 연산 효율성이 향상된 새로운 확장 전략인 CoScale-RL을 제안합니다. 먼저, 문제 해결 가능성을 높이기 위해 솔루션을 확장합니다. 핵심 아이디어는 단순히 데이터 세트를 늘리는 것이 아니라, 각 문제에 대한 여러 솔루션을 수집하는 것입니다. 그런 다음, 강화 학습의 안정성을 높이기 위해 연산 과정을 확장합니다. 또한, 모델 병합 기술인 Re-distillation을 활용하여 확장 과정에서 연산 효율성을 유지하거나 향상시킵니다. 제안하는 방법은 데이터 및 연산 효율성을 크게 향상시키며, 네 가지 벤치마크에서 평균 3.76배의 정확도 향상을 달성했습니다. CoScale-RL은 방대한 지도 미세 조정(SFT) 데이터 세트 없이도 LRM의 성능 한계를 개선할 수 있습니다. 본 연구는 LRM의 추론 능력을 더욱 향상시키기 위한 새로운 확장 방향을 제시합니다.

Original Abstract

Training Large Reasoning Model (LRM) is usually unstable and unpredictable, especially on hard problems or weak foundation models. We found that the current post-training scaling strategy can still improve on these cases. We propose CoScale-RL, a novel scaling strategy with better data and computational efficiency. We first scale up solutions to make problems solvable. The core idea is to collect multiple solutions for each problem, rather than simply enlarging the dataset. Then, we scale up rollout computation to stabilize Reinforcement Learning. We further leverage a model merge technique called Re-distillation to sustain or even improve computational efficiency when scaling up. Our method significantly improves data and computational efficiency, with an average 3.76$\times$ accuracy improvement on four benchmarks. CoScale-RL is able to improve an LRM's ability boundary without an extensive SFT dataset. Our method provides a new scaling direction to further improve LRM's reasoning ability.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!