2605.14392v1 May 14, 2026 cs.AI

환경 구축 학습: 검증 가능한 환경 합성 기반의 자기 진화 추론 강화 학습

Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

Haitao Mi
Haitao Mi
Citations: 2,834
h-index: 25
Kishan Panaganti
Kishan Panaganti
Citations: 483
h-index: 11
Zhenwen Liang
Zhenwen Liang
Citations: 434
h-index: 8
Wenhao Yu
Wenhao Yu
Citations: 1,349
h-index: 18
Yuchen Shi
Yuchen Shi
Citations: 137
h-index: 6
Dian Yu
Dian Yu
Citations: 1,523
h-index: 12

본 연구는 자기 개선 능력을 갖춘 언어 모델의 비전을 제시합니다. 여기서 모델은 단순히 문제를 생성하거나 모방할 트레이스를 생성하는 것이 아니라, 스스로 학습하는 환경을 구축합니다. 제로 데이터 추론 강화 학습에서, 이는 자기 개선 과정을 데이터 생성 루프가 아닌 환경 구축 루프로 재구성합니다. 여기서 각 구성 요소는 재사용 가능한 실행 가능한 객체로서, 인스턴스를 샘플링하고, 참조 값을 계산하며, 응답을 평가합니다. 이러한 비전이 지속적인 개선을 가능하게 하는 핵심은 환경이 '해결-검증 비대칭성'을 보여야 한다는 것입니다. 즉, 모델은 해결할 수 있지만 자연어로 신뢰성 있게 실행할 수 없는 '오라클'을 생성해야 합니다. 이러한 비대칭성은 두 가지 상호 보완적인 형태로 나타납니다. 어떤 작업은 알고리즘적으로는 어렵지만 코드로 구현하기에는 간단합니다. 예를 들어, 한 번 컴파일된 동적 프로그래밍 또는 그래프 탐색은 무한히 많은 보정된 인스턴스를 생성할 수 있습니다. 다른 작업은 본질적으로 해결하기 어렵지만 검증하기는 쉽습니다. 예를 들어, 특정 부분합 문제나 제약 조건 만족 문제는 이에 해당합니다. 이러한 두 가지 경우 모두, 정책이 검증기를 속여 해결할 수 없는 '제안-해결' 간의 지속적인 격차를 만들어냅니다. 이 격차가 학습 과정에서 보상을 의미 있게 유지하는 역할을 합니다. 본 연구에서는 'EvoEnv'라는 단일 정책 생성 및 해결 방법을 통해 이러한 관점을 구현합니다. EvoEnv는 10개의 초기 설정에서 Python 환경을 합성하고, 단계별 검증, 의미론적 자체 검토, 해결 상대적 난이도 보정 및 신규성 검사를 거쳐 환경을 수락합니다. 이미 강력한 성능을 보이는 Qwen3-4B-Thinking 모델에서, 기존의 공개 데이터 기반 강화 학습 및 수동으로 제작된 환경 기반 강화 학습은 평균 성능을 저하시키는 반면, EvoEnv는 성능을 72.4에서 74.8로 향상시켜 3.3%의 상대적 성능 향상을 달성했습니다. 우리는 안정적인 자기 개선이 더 많은 합성 데이터를 생성하는 것이 아니라, 모델이 스스로 학습하면서도 해결하기 어렵도록 구조화된 환경을 구축하는 능력에 달려 있다고 제안합니다.

Original Abstract

We pursue a vision for self-improving language models in which the model does not merely generate problems or traces to imitate, but constructs the environments that train it. In zero-data reasoning RL, this reframes self-improvement from a data-generation loop into an environment-construction loop, where each artifact is a reusable executable object that samples instances, computes references, and scores responses. Whether this vision sustains improvement hinges on a single property: the environments must exhibit stable solve--verify asymmetry, the model must be able to write an oracle once that it cannot reliably execute in natural language on fresh instances. This asymmetry takes two complementary forms. Some tasks are algorithmically hard to reason through but trivial as code: a dynamic program or graph traversal, compiled once, yields unboundedly many calibrated instances. Others are intrinsically hard to solve but easy to verify, like planted subset-sum or constraint satisfaction. Both create a durable gap between proposing and solving that the policy cannot close by gaming the verifier, and it is this gap that keeps reward informative as the learner improves. We instantiate this view in EvoEnv, a single-policy generator, solver method that synthesizes Python environments from ten seeds and admits them only after staged validation, semantic self-review, solver-relative difficulty calibration, and novelty checks. The strongest evidence comes from the already-strong regime: on Qwen3-4B-Thinking, fixed public-data RLVR and fixed hand-crafted environment RLVR reduce the average, while EvoEnv improves it from 72.4 to 74.8, a relative gain of 3.3%. Stable self-improvement, we suggest, depends not on producing more synthetic data, but on models learning to construct worlds whose difficulty stays structurally beyond their own reach.

0 Citations
0 Influential
12.5 Altmetric
62.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!