Golden Goose: 검증 불가능한 인터넷 텍스트에서 무제한 RLVR 태스크를 합성하는 간단한 트릭
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
검증 가능한 보상을 활용한 강화 학습(RLVR)은 거대 언어 모델(LLM)의 복잡한 추론 능력을 이끌어내는 초석이 되었습니다. 그러나 RL의 확장은 기존 검증 가능한 데이터의 제한으로 인해 병목 현상을 겪고 있으며, 장기간 학습 시 성능 향상이 점차 포화 상태에 이릅니다. 이를 극복하기 위해, 우리는 '중간 채우기(fill-in-the-middle)' 태스크의 객관식 질의응답 버전을 구축하여 검증 불가능한 인터넷 텍스트로부터 무제한의 RLVR 태스크를 합성하는 간단한 트릭인 'Golden Goose'를 제안합니다. 소스 텍스트가 주어지면, 우리는 LLM을 통해 핵심 추론 단계를 식별하고 마스킹한 다음, 다양하고 그럴듯한 오답 선지(distractors) 세트를 생성합니다. 이를 통해 기존 RLVR 데이터 구축에서 배제되었던 추론이 풍부한 비검증 코퍼스(예: 과학교과서)를 활용할 수 있게 되었으며, 수학, 프로그래밍, 일반 과학 분야에 걸친 70만 개 이상의 태스크를 포함하는 대규모 RLVR 데이터셋인 GooseReason-0.7M을 합성했습니다. 실증적으로 GooseReason은 기존 RLVR 데이터에서 포화 상태에 이른 모델을 효과적으로 회생시켜, 지속적인 RL 하에서 견고하고 꾸준한 성능 향상을 이끌어냈으며, 15개의 다양한 벤치마크에서 1.5B 및 4B-Instruct 모델에 대해 새로운 최고 성능(SOTA)을 달성했습니다. 마지막으로, 우리는 Golden Goose를 실제 환경에 적용하여 기존 RLVR 데이터가 전무한 사이버 보안 분야를 위해 가공되지 않은 FineWeb 스크랩 데이터로부터 RLVR 태스크를 합성했습니다. 결과 데이터인 GooseReason-Cyber로 Qwen3-4B-Instruct를 학습시킨 결과, 광범위한 도메인 특화 사전 학습 및 사후 학습을 거친 7B 도메인 전문 모델을 능가하며 사이버 보안 분야에서 새로운 최고 성능을 기록했습니다. 이는 풍부하고 추론 내용이 많은 비검증 인터넷 텍스트를 활용하여 RLVR 데이터를 자동으로 확장할 수 있는 잠재력을 강조합니다.
Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.
AI Analysis
Korean Summary
Key Innovations
- 검증 불가능한 텍스트(Unverifiable Text)를 검증 가능한 RLVR 작업으로 변환하는 파이프라인 구축
- 추론 과정을 마스킹하고 오답을 생성하여 객관식(MCQ) 형태의 '중간 채우기(Fill-in-the-middle)' 작업 설계
- 테스트 케이스가 없는 코드, 수학 증명, 과학 교과서 등 기존에 RLVR로 활용하기 어려웠던 데이터 소스 활용
- 웹 스크랩 데이터만으로 사이버 보안 도메인 특화 모델을 능가하는 성과 달성 (GooseReason-Cyber)
Learning & Inference Impact
학습 과정에서는 기존 RLVR 데이터셋으로 인해 발생하는 성능 포화 현상을 극복하여, 추가적인 연산 자원 투입 시 지속적인 성능 향상을 가능하게 합니다. 특히 정답 판별기(Verifier)를 만들기 어려운 도메인(예: STEM, 사이버 보안)에서도 강화학습을 효과적으로 수행할 수 있게 하여 도메인 특화 성능을 크게 높입니다. 추론 측면에서는 객관식 문제로 훈련되었음에도 불구하고, 논리적 사고력이 일반화되어 다양한 벤치마크 테스트와 개방형 질문에 대한 해결 능력이 향상됩니다.
Technical Difficulty
Estimated implementation complexity based on methodology.