네이티브 추론 모델: 검증 불가능한 데이터에 대해 추론하도록 언어 모델 학습시키기
Native Reasoning Models: Training Language Models to Reason on Unverifiable Data
대형 추론 모델을 학습시키는 지배적인 패러다임(지도 미세 조정(SFT)과 검증 가능한 보상을 수반하는 강화 학습(RLVR)의 결합)은 고품질의 인간 주석 추론 데이터와 외부 검증자에 대한 의존성으로 인해 근본적인 제약을 받는다. 이러한 의존성은 상당한 데이터 수집 비용을 발생시키고 인간의 인지적 편향을 내재화할 위험을 초래하며, 강화 학습 단계를 수학이나 코딩처럼 객관적으로 평가할 수 있는 영역에만 국한시켜 광범위한 검증 불가능한 작업들을 범위 밖으로 밀어낸다. 이러한 한계를 극복하기 위해, 우리는 전문가가 작성한 데모의 필요성을 배제하고 표준 질문-답변 쌍만을 사용하여 모델이 스스로 추론 경로를 생성하게 함으로써 복잡한 추론 능력을 배양하는 새로운 프레임워크인 NRT(Native Reasoning Training)를 도입한다. NRT는 추론 과정을 잠재 변수로 취급하여 학습 문제를 재구성한다. 이 프레임워크는 추론을 최적화 문제로 모델링하는 통합 학습 목표를 도입하여, 모델이 실제 정답을 도출할 가능성을 높이는 경로에 본질적으로 보상을 제공한다. 이러한 통합적 관점은 정책 붕괴(policy collapse)와 같은 기존 방법들의 본질적 실패 모드를 분석하고 더욱 견고한 보상 집계 함수를 체계적으로 설계할 수 있게 하며, 이를 통해 모델이 자신의 불확실성을 해소하는 방향으로 사고하도록 학습하는 자기 강화 피드백 루프를 형성한다. Llama 및 Mistral 모델 제품군에 대한 실증적 평가에 따르면, NRT는 검증자 없는(verifier-free) 방법론 중 최고 수준(state-of-the-art)의 성능을 달성하며, 표준 SFT 베이스라인과 기존의 검증자 없는 RL 방법들을 크게 능가한다. 우리의 접근 방식은 특히 복잡한 추론 영역에서 두드러진 성능 향상을 이끌어내고 정책 붕괴에 대해 높은 견고성을 보이며, 더욱 강력하고 광범위하게 적용할 수 있는 추론 시스템을 구축하기 위한 일반적이고 확장 가능한 경로를 제공한다.
The prevailing paradigm for training large reasoning models--combining Supervised Fine-Tuning (SFT) with Reinforcement Learning with Verifiable Rewards (RLVR)--is fundamentally constrained by its reliance on high-quality, human-annotated reasoning data and external verifiers. This dependency incurs significant data-collection costs, risks embedding human cognitive biases, and confines the reinforcement learning stage to objectively assessable domains like mathematics and coding, leaving a wide range of unverifiable tasks beyond its scope. To overcome these limitations, we introduce NRT (Native Reasoning Training), a novel framework that cultivates complex reasoning by having the model generate its own reasoning traces using only standard question-answer pairs, thereby obviating the need for expert-written demonstrations. NRT reframes the training problem by treating the reasoning process as a latent variable. It employs a unified training objective that models reasoning as an optimization problem, intrinsically rewarding paths that increase the model's likelihood of producing the ground-truth answer. This unified perspective allows us to analyze intrinsic failure modes of prior methods, such as policy collapse, and systematically design more robust reward aggregation functions, creating a self-reinforcing feedback loop where the model learns to think in ways that resolve its own uncertainty. Empirical evaluation on Llama and Mistral model families demonstrates that NRT achieves state-of-the-art performance among verifier-free methods, significantly outperforming standard SFT baselines and prior verifier-free RL methods. Our approach yields particularly strong performance gains in complex reasoning domains and exhibits high robustness to policy collapse, offering a general, scalable path toward building more powerful and broadly applicable reasoning systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.