SUPERNOVA: 자연어 지시사항 기반 강화 학습을 통해 LLM의 일반적인 추론 능력 향상
SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions
강화 학습과 검증 가능한 보상(RLVR)은 수학 및 코딩과 같은 형식적인 영역에서 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시켰습니다. 그러나 LLM은 여전히 인과 추론 및 시간적 이해와 같은 능력이 필요한 일반적인 추론 작업에서 어려움을 겪습니다. RLVR을 일반적인 추론으로 확장하는 데 있어 가장 큰 제약은 다양한 추론 능력을 포괄하는 고품질의 검증 가능한 학습 데이터 부족입니다. 이러한 문제를 해결하기 위해, 우리는 일반적인 추론 능력을 향상시키는 데 목표를 둔 RLVR을 위한 데이터 큐레이션 프레임워크인 SUPERNOVA를 제안합니다. 우리의 핵심 아이디어는 전문가가 주석을 단 지침 조정 데이터 세트가 풍부한 추론 패턴을 담고 있으며, 이러한 패턴을 체계적으로 RLVR에 적용할 수 있다는 것입니다. 이를 연구하기 위해, 데이터 설계 선택이 성능에 미치는 영향을 분석하기 위해 100개 이상의 제어된 RL 실험을 수행했습니다. 특히, 우리는 다음 세 가지 주요 요인을 조사했습니다: (i) 소스 작업 선택, (ii) 작업 혼합 전략, (iii) 데이터 품질을 개선하기 위한 인공적인 개입. 우리의 분석 결과, 소스 작업 선택은 간단하지 않으며, 다운스트림 추론 성능에 상당한 영향을 미칩니다. 또한, 개별 대상 작업의 성능을 기준으로 작업을 선택하는 것이 전체 평균 성능을 기준으로 하는 전략보다 우수한 것으로 나타났습니다. 마지막으로, SUPERNOVA로 훈련된 모델은 BBEH, Zebralogic 및 MMLU-Pro와 같은 어려운 추론 벤치마크에서 강력한 기준 모델(예: Qwen3.5)보다 우수한 성능을 보였습니다. 특히, SUPERNOVA를 사용하여 훈련하면 모델 크기에 관계없이 BBEH에서 최대 52.8%의 성능 향상을 보였으며, 이는 RLVR을 위한 체계적인 데이터 큐레이션의 효과를 입증합니다. 우리의 연구 결과는 RLVR을 일반적인 추론으로 확장하기 위한 인간이 주석을 단 리소스를 큐레이션하는 데 실질적인 통찰력을 제공합니다. 코드 및 데이터는 https://github.com/asuvarna31/supernova 에서 사용할 수 있습니다.
Reinforcement Learning with Verifiable Rewards (RLVR) has significantly improved large language model (LLM) reasoning in formal domains such as mathematics and code. Despite these advancements, LLMs still struggle with general reasoning tasks requiring capabilities such as causal inference and temporal understanding. Extending RLVR to general reasoning is fundamentally constrained by the lack of high-quality, verifiable training data that spans diverse reasoning skills. To address this challenge, we propose SUPERNOVA, a data curation framework for RLVR aimed at enhancing general reasoning. Our key insight is that instruction-tuning datasets containing expert-annotated ground-truth encode rich reasoning patterns that can be systematically adapted for RLVR. To study this, we conduct 100+ controlled RL experiments to analyze how data design choices impact downstream reasoning performance. In particular, we investigate three key factors: (i) source task selection, (ii) task mixing strategies, and (iii) synthetic interventions for improving data quality. Our analysis reveals that source task selection is non-trivial and has a significant impact on downstream reasoning performance. Moreover, selecting tasks based on their performance for individual target tasks outperforms strategies based on overall average performance. Finally, models trained on SUPERNOVA outperform strong baselines (e.g., Qwen3.5) on challenging reasoning benchmarks including BBEH, Zebralogic, and MMLU-Pro. In particular, training on SUPERNOVA yields relative improvements of up to 52.8\% on BBEH across model sizes, demonstrating the effectiveness of principled data curation for RLVR. Our findings provide practical insights for curating human-annotated resources to extend RLVR to general reasoning. The code and data is available at https://github.com/asuvarna31/supernova.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.