2601.22975v1 Jan 30, 2026 cs.AI

Golden Goose: 검증 불가능한 인터넷 텍스트에서 무제한 RLVR 태스크를 합성하는 간단한 트릭

Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

Ximing Lu
Ximing Lu
University of Washington
Citations: 5,909
h-index: 33
David Acuna
David Acuna
Citations: 116
h-index: 4
Jaehun Jung
Jaehun Jung
Citations: 205
h-index: 8
Jian Hu
Jian Hu
Citations: 139
h-index: 3
Shizhe Diao
Shizhe Diao
Citations: 785
h-index: 11
Shaokun Zhang
Shaokun Zhang
Citations: 20
h-index: 2
Mingjie Liu
Mingjie Liu
Citations: 191
h-index: 7
Hyunwoo Kim
Hyunwoo Kim
Citations: 26
h-index: 2
Prithviraj Ammanabrolu
Prithviraj Ammanabrolu
Citations: 372
h-index: 6
Jan Kautz
Jan Kautz
Citations: 19
h-index: 2
Yejin Choi
Yejin Choi
Citations: 359
h-index: 8
Di Zhang
Di Zhang
Citations: 20
h-index: 2
Yi Dong
Yi Dong
Citations: 224
h-index: 7
Yunheng Zou
Yunheng Zou
Citations: 32
h-index: 2
Brandon Cui
Brandon Cui
Citations: 80
h-index: 2

검증 가능한 보상을 활용한 강화 학습(RLVR)은 거대 언어 모델(LLM)의 복잡한 추론 능력을 이끌어내는 초석이 되었습니다. 그러나 RL의 확장은 기존 검증 가능한 데이터의 제한으로 인해 병목 현상을 겪고 있으며, 장기간 학습 시 성능 향상이 점차 포화 상태에 이릅니다. 이를 극복하기 위해, 우리는 '중간 채우기(fill-in-the-middle)' 태스크의 객관식 질의응답 버전을 구축하여 검증 불가능한 인터넷 텍스트로부터 무제한의 RLVR 태스크를 합성하는 간단한 트릭인 'Golden Goose'를 제안합니다. 소스 텍스트가 주어지면, 우리는 LLM을 통해 핵심 추론 단계를 식별하고 마스킹한 다음, 다양하고 그럴듯한 오답 선지(distractors) 세트를 생성합니다. 이를 통해 기존 RLVR 데이터 구축에서 배제되었던 추론이 풍부한 비검증 코퍼스(예: 과학교과서)를 활용할 수 있게 되었으며, 수학, 프로그래밍, 일반 과학 분야에 걸친 70만 개 이상의 태스크를 포함하는 대규모 RLVR 데이터셋인 GooseReason-0.7M을 합성했습니다. 실증적으로 GooseReason은 기존 RLVR 데이터에서 포화 상태에 이른 모델을 효과적으로 회생시켜, 지속적인 RL 하에서 견고하고 꾸준한 성능 향상을 이끌어냈으며, 15개의 다양한 벤치마크에서 1.5B 및 4B-Instruct 모델에 대해 새로운 최고 성능(SOTA)을 달성했습니다. 마지막으로, 우리는 Golden Goose를 실제 환경에 적용하여 기존 RLVR 데이터가 전무한 사이버 보안 분야를 위해 가공되지 않은 FineWeb 스크랩 데이터로부터 RLVR 태스크를 합성했습니다. 결과 데이터인 GooseReason-Cyber로 Qwen3-4B-Instruct를 학습시킨 결과, 광범위한 도메인 특화 사전 학습 및 사후 학습을 거친 7B 도메인 전문 모델을 능가하며 사이버 보안 분야에서 새로운 최고 성능을 기록했습니다. 이는 풍부하고 추론 내용이 많은 비검증 인터넷 텍스트를 활용하여 RLVR 데이터를 자동으로 확장할 수 있는 잠재력을 강조합니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.

2 Citations
0 Influential
16.5 Altmetric
84.5 Score

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 '검증 가능한 보상을 이용한 강화학습(RLVR)'의 데이터 부족 문제를 해결하기 위해, 'Golden Goose'라는 새로운 데이터 합성 파이프라인을 제안합니다. 기존 RLVR은 정답 검증이 가능한 수학이나 코딩 문제에 의존하여 데이터 확장에 한계가 있었습니다. 연구진은 교과서나 웹 문서와 같은 '검증 불가능한' 일반 텍스트에서 핵심 추론 과정을 마스킹하고, LLM을 이용해 그럴듯한 오답(Distractors)을 생성하여 객관식 빈칸 채우기(Multiple-Choice Fill-in-the-Middle) 문제를 만들었습니다. 이 방식을 통해 구축한 70만 개의 데이터셋(GooseReason-0.7M)은 기존 데이터로 성능이 포화된 모델을 다시 학습시켜 지속적인 성능 향상을 이끌어냈으며, 특히 검증 가능한 데이터가 희소한 과학(STEM) 및 사이버 보안 분야에서 뛰어난 성과를 입증했습니다.

Key Innovations

  • 검증 불가능한 텍스트(Unverifiable Text)를 검증 가능한 RLVR 작업으로 변환하는 파이프라인 구축
  • 추론 과정을 마스킹하고 오답을 생성하여 객관식(MCQ) 형태의 '중간 채우기(Fill-in-the-middle)' 작업 설계
  • 테스트 케이스가 없는 코드, 수학 증명, 과학 교과서 등 기존에 RLVR로 활용하기 어려웠던 데이터 소스 활용
  • 웹 스크랩 데이터만으로 사이버 보안 도메인 특화 모델을 능가하는 성과 달성 (GooseReason-Cyber)

Learning & Inference Impact

학습 과정에서는 기존 RLVR 데이터셋으로 인해 발생하는 성능 포화 현상을 극복하여, 추가적인 연산 자원 투입 시 지속적인 성능 향상을 가능하게 합니다. 특히 정답 판별기(Verifier)를 만들기 어려운 도메인(예: STEM, 사이버 보안)에서도 강화학습을 효과적으로 수행할 수 있게 하여 도메인 특화 성능을 크게 높입니다. 추론 측면에서는 객관식 문제로 훈련되었음에도 불구하고, 논리적 사고력이 일반화되어 다양한 벤치마크 테스트와 개방형 질문에 대한 해결 능력이 향상됩니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!