SCALER: 추론을 위한 합성적이고 확장 가능하며 적응적인 학습 환경
SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning
강화 학습(RL)은 대규모 언어 모델의 추론 능력을 향상시키는 효과적인 방법론을 제공하지만, 그 효과는 모델의 발전과 함께 유효성을 유지하는 학습 신호에 달려 있습니다. 실제로, RL의 발전은 종종 과제가 모델의 능력과 제대로 일치하지 않거나, 훈련이 제한된 반복적인 문제 패턴에 의해 지배될 때 느려지는 경향이 있습니다. 이러한 문제를 동시에 해결하기 위해, 우리는 SCALER (synthesisCalable Adaptive Learning Environment for Reasoning)라는 프레임워크를 제안합니다. SCALER는 적응적인 환경 설계를 통해 효과적인 학습 신호를 유지합니다. SCALER는 실세계 프로그래밍 문제를 검증 가능한 추론 환경으로 변환하는 확장 가능한 합성 파이프라인을 도입합니다. 이 파이프라인은 제어 가능한 난이도와 무한한 인스턴스 생성을 가능하게 하여, 제한된 데이터 세트 이상으로 RL 훈련을 수행하면서도 강력한 정확성 보장을 유지합니다. 이를 바탕으로, SCALER는 모델의 능력 한계를 추적하고 분포적 다양성을 유지하기 위해 인스턴스 난이도를 동적으로 조정하고 활성 환경 집합을 큐레이션하는 적응적인 다중 환경 RL 전략을 사용합니다. 이러한 공진화는 보상 희소성을 방지하고, 좁은 작업 패턴에 대한 과적합을 완화하며, 훈련 전반에 걸쳐 지속적인 개선을 지원합니다. 광범위한 실험 결과, SCALER는 다양한 추론 벤치마크에서 데이터 세트 기반 RL의 기본 모델보다 일관되게 우수한 성능을 보이며, 더 안정적이고 장기적인 훈련 동역학을 나타냅니다.
Reinforcement learning (RL) offers a principled way to enhance the reasoning capabilities of large language models, yet its effectiveness hinges on training signals that remain informative as models evolve. In practice, RL progress often slows when task difficulty becomes poorly aligned with model capability, or when training is dominated by a narrow set of recurring problem patterns. To jointly address these issues, we propose SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), a framework that sustains effective learning signals through adaptive environment design. SCALER introduces a scalable synthesis pipeline that converts real-world programming problems into verifiable reasoning environments with controllable difficulty and unbounded instance generation, enabling RL training beyond finite datasets while preserving strong correctness guarantees. Building on this, SCALER further employs an adaptive multi-environment RL strategy that dynamically adjusts instance difficulty and curates the active set of environments to track the model's capability frontier and maintain distributional diversity. This co-adaptation prevents reward sparsity, mitigates overfitting to narrow task patterns, and supports sustained improvement throughout training. Extensive experiments show that SCALER consistently outperforms dataset-based RL baselines across diverse reasoning benchmarks and exhibits more stable, long-horizon training dynamics.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.