2602.20117v1 Feb 23, 2026 cs.AI

ReSyn: 추론 모델을 위한 합성 환경 자율 확장

ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models

H. Rangwala
H. Rangwala
Citations: 6,646
h-index: 39
Andre He
Andre He
Citations: 39
h-index: 1
Nathaniel Weir
Nathaniel Weir
Citations: 8
h-index: 2
Kaj Bostrom
Kaj Bostrom
Citations: 558
h-index: 6
Allen Nie
Allen Nie
Citations: 4
h-index: 2
Darion Cassel
Darion Cassel
Citations: 106
h-index: 5
Sam Bayless
Sam Bayless
Citations: 6
h-index: 2

검증 가능한 보상을 수반하는 강화학습(RLVR)은 검증자의 감독을 활용하여 추론 언어 모델(RLM)을 훈련하는 유망한 접근법으로 부상하고 있다. 많은 작업에서 검증자를 구현하는 것이 정답을 직접 주석 처리하는 것보다 쉽지만, 기존의 합성 데이터 생성 방법은 여전히 주로 정답 중심으로 이루어지고 있으며, 검증자 기반 방법은 소수의 수작업 절차적 환경에 의존하고 있다. 본 연구에서는 제약 조건 충족, 알고리즘 퍼즐 및 공간 추론과 같은 작업을 포괄하며, 인스턴스 생성기와 검증자를 갖춘 다양한 추론 환경을 생성하는 파이프라인인 ReSyn을 도입하여 RLVR을 확장한다. ReSyn 데이터에 대해 강화학습(RL)으로 훈련된 Qwen2.5-7B-Instruct 모델은 추론 벤치마크 및 도메인 외 수학 벤치마크 전반에서 일관된 성능 향상을 달성했으며, 까다로운 BBEH 벤치마크에서는 27%의 상대적 개선을 보였다. 절제 연구에 따르면 검증자 기반 감독과 작업 다양성의 증가 모두 성능에 크게 기여하는 것으로 나타났으며, 이는 추론 환경을 대규모로 생성하는 것이 RLM의 추론 능력을 향상시킬 수 있다는 경험적 증거를 제공한다.

Original Abstract

Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising approach for training reasoning language models (RLMs) by leveraging supervision from verifiers. Although verifier implementation is easier than solution annotation for many tasks, existing synthetic data generation methods remain largely solution-centric, while verifier-based methods rely on a few hand-crafted procedural environments. In this work, we scale RLVR by introducing ReSyn, a pipeline that generates diverse reasoning environments equipped with instance generators and verifiers, covering tasks such as constraint satisfaction, algorithmic puzzles, and spatial reasoning. A Qwen2.5-7B-Instruct model trained with RL on ReSyn data achieves consistent gains across reasoning benchmarks and out-of-domain math benchmarks, including a 27\% relative improvement on the challenging BBEH benchmark. Ablations show that verifier-based supervision and increased task diversity both contribute significantly, providing empirical evidence that generating reasoning environments at scale can enhance reasoning abilities in RLMs

0 Citations
0 Influential
19.5 Altmetric
97.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!