자기 검증 학습은 언어 모델의 추론 능력을 향상시킨다
Learning to Self-Verify Makes Language Models Better Reasoners
최근의 대규모 언어 모델(LLM)은 복잡한 작업에 대한 유망한 추론 경로를 생성하는 데 뛰어난 성능을 보입니다. 그러나 강력한 생성 능력에도 불구하고, LLM은 여전히 자신의 답변을 검증하는 데 어려움을 겪으며, 생성과 자기 검증 간의 지속적인 능력 불균형을 드러냅니다. 본 연구에서는 훈련 과정 전반에 걸쳐 이러한 불균형을 심층적으로 조사하고, 동일한 작업에서 생성 능력이 향상되어도 자기 검증 능력 또한 함께 향상되지 않는다는 것을 보여줍니다. 흥미롭게도, 이 불균형의 역방향 현상은 다르게 나타납니다. 즉, 자기 검증 학습은 생성 성능을 효과적으로 향상시켜, 표준적인 생성 훈련과 유사한 정확도를 달성하면서도 더욱 효율적이고 효과적인 추론 과정을 제공합니다. 이러한 관찰을 바탕으로, 우리는 자기 검증을 생성 훈련에 통합하기 위해 다중 작업 강화 학습 프레임워크를 제안합니다. 여기서 생성과 자기 검증은 서로 독립적이지만 상호 보완적인 목표로 최적화됩니다. 벤치마크 및 모델 전반에 걸친 광범위한 실험 결과, 자기 검증을 포함한 훈련은 생성 훈련만 수행하는 경우보다 생성 및 검증 능력 모두에서 성능 향상을 보여줍니다.
Recent large language models (LLMs) achieve strong performance in generating promising reasoning paths for complex tasks. However, despite powerful generation ability, LLMs remain weak at verifying their own answers, revealing a persistent capability asymmetry between generation and self-verification. In this work, we conduct an in-depth investigation of this asymmetry throughout training evolution and show that, even on the same task, improving generation does not lead to corresponding improvements in self-verification. Interestingly, we find that the reverse direction of this asymmetry behaves differently: learning to self-verify can effectively improve generation performance, achieving accuracy comparable to standard generation training while yielding more efficient and effective reasoning traces. Building on this observation, we further explore integrating self-verification into generation training by formulating a multi-task reinforcement learning framework, where generation and self-verification are optimized as two independent but complementary objectives. Extensive experiments across benchmarks and models demonstrate performance gains over generation-only training in both generation and verification capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.