2603.18886v1 Mar 19, 2026 cs.AI

수학 객체에 대한 추론: 온폴리시 보상 모델링 및 테스트 시간 집계

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Zhuoran Li
Zhuoran Li
Citations: 0
h-index: 0
Boyi Liu
Boyi Liu
Citations: 8
h-index: 1
Chenxi Whitehouse
Chenxi Whitehouse
Citations: 672
h-index: 11
S. Welleck
S. Welleck
Citations: 10,544
h-index: 35
Jason Weston
Jason Weston
Citations: 888
h-index: 11
Marjan Ghazvininejad
Marjan Ghazvininejad
Citations: 18,745
h-index: 30
Anaelia Ovalle
Anaelia Ovalle
Citations: 584
h-index: 10
Jing Xu
Jing Xu
Citations: 1,456
h-index: 11
Ping Yu
Ping Yu
Citations: 414
h-index: 10
Sainbayar Sukhbaatar
Sainbayar Sukhbaatar
Citations: 148
h-index: 7
Pranjal Aggarwal
Pranjal Aggarwal
Citations: 680
h-index: 9
Seungone Kim
Seungone Kim
Citations: 56
h-index: 2
Ilia Kulikov
Ilia Kulikov
Citations: 666
h-index: 14
Jack Lanchantin
Jack Lanchantin
Meta AI
Citations: 4,253
h-index: 19
Tianjian Li
Tianjian Li
Citations: 105
h-index: 5
Graham Neubig
Graham Neubig
Citations: 718
h-index: 12
Swarnadeep Saha
Swarnadeep Saha
University of North Carolina Chapel Hill
Citations: 1,515
h-index: 21
Adina Williams
Adina Williams
Citations: 35
h-index: 2
Weizhe Yuan
Weizhe Yuan
Citations: 1,264
h-index: 14
Jingyuan Zhang
Jingyuan Zhang
Citations: 43
h-index: 3
Wenting Zhao
Wenting Zhao
Citations: 73
h-index: 4

수학, 물리학, 화학 등 STEM 분야의 응용에서 수학적 객체를 정확하게 도출하는 능력은 핵심 요구 사항이며, 추론은 형식적으로 구조화된 표현으로 이어져야 합니다. 그러나 현재 수학적 및 과학적 추론에 대한 언어 모델(LM) 평가는 자동 평가의 편의성으로 인해 수치 값이나 객관식 선택지와 같은 단순화된 답변 형식을 많이 사용합니다. 본 논문에서는 수학적 객체에 대한 추론을 개선하기 위한 세 가지 기여를 제시합니다. (i) 수학적 객체 도출을 위한 훈련 데이터와 벤치마크인 Principia 스위트를 구축하고 공개합니다. (ii) 강력한 LLM 기반의 평가 및 검증 시스템을 활용한 훈련 방법을 제시하며, 온폴리시 평가자 훈련이 성능 향상에 기여함을 보여줍니다. (iii) 온폴리시 훈련이 테스트 시간의 계산량을 집계를 통해 확장하는 데에도 사용될 수 있음을 보여줍니다. Qwen3-235B 및 o3와 같은 강력한 LM은 Principia에서 어려움을 겪는 반면, 저희의 훈련 방법은 다양한 LLM 기반 모델에 상당한 성능 향상을 가져다주며, 동시에 기존의 수치 및 객관식 질문 응답 작업에서도 더 나은 결과를 보여주어 추론 능력의 다양한 형식으로의 일반화 가능성을 입증합니다.

Original Abstract

The ability to precisely derive mathematical objects is a core requirement for downstream STEM applications, including mathematics, physics, and chemistry, where reasoning must culminate in formally structured expressions. Yet, current LM evaluations of mathematical and scientific reasoning rely heavily on simplified answer formats such as numerical values or multiple choice options due to the convenience of automated assessment. In this paper we provide three contributions for improving reasoning over mathematical objects: (i) we build and release training data and benchmarks for deriving mathematical objects, the Principia suite; (ii) we provide training recipes with strong LLM-judges and verifiers, where we show that on-policy judge training boosts performance; (iii) we show how on-policy training can also be used to scale test-time compute via aggregation. We find that strong LMs such as Qwen3-235B and o3 struggle on Principia, while our training recipes can bring significant improvements over different LLM backbones, while simultaneously improving results on existing numerical and MCQA tasks, demonstrating cross-format generalization of reasoning abilities.

0 Citations
0 Influential
17.5 Altmetric
87.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!