수학 객체에 대한 추론: 온폴리시 보상 모델링 및 테스트 시간 집계
Reasoning over mathematical objects: on-policy reward modeling and test time aggregation
수학, 물리학, 화학 등 STEM 분야의 응용에서 수학적 객체를 정확하게 도출하는 능력은 핵심 요구 사항이며, 추론은 형식적으로 구조화된 표현으로 이어져야 합니다. 그러나 현재 수학적 및 과학적 추론에 대한 언어 모델(LM) 평가는 자동 평가의 편의성으로 인해 수치 값이나 객관식 선택지와 같은 단순화된 답변 형식을 많이 사용합니다. 본 논문에서는 수학적 객체에 대한 추론을 개선하기 위한 세 가지 기여를 제시합니다. (i) 수학적 객체 도출을 위한 훈련 데이터와 벤치마크인 Principia 스위트를 구축하고 공개합니다. (ii) 강력한 LLM 기반의 평가 및 검증 시스템을 활용한 훈련 방법을 제시하며, 온폴리시 평가자 훈련이 성능 향상에 기여함을 보여줍니다. (iii) 온폴리시 훈련이 테스트 시간의 계산량을 집계를 통해 확장하는 데에도 사용될 수 있음을 보여줍니다. Qwen3-235B 및 o3와 같은 강력한 LM은 Principia에서 어려움을 겪는 반면, 저희의 훈련 방법은 다양한 LLM 기반 모델에 상당한 성능 향상을 가져다주며, 동시에 기존의 수치 및 객관식 질문 응답 작업에서도 더 나은 결과를 보여주어 추론 능력의 다양한 형식으로의 일반화 가능성을 입증합니다.
The ability to precisely derive mathematical objects is a core requirement for downstream STEM applications, including mathematics, physics, and chemistry, where reasoning must culminate in formally structured expressions. Yet, current LM evaluations of mathematical and scientific reasoning rely heavily on simplified answer formats such as numerical values or multiple choice options due to the convenience of automated assessment. In this paper we provide three contributions for improving reasoning over mathematical objects: (i) we build and release training data and benchmarks for deriving mathematical objects, the Principia suite; (ii) we provide training recipes with strong LLM-judges and verifiers, where we show that on-policy judge training boosts performance; (iii) we show how on-policy training can also be used to scale test-time compute via aggregation. We find that strong LMs such as Qwen3-235B and o3 struggle on Principia, while our training recipes can bring significant improvements over different LLM backbones, while simultaneously improving results on existing numerical and MCQA tasks, demonstrating cross-format generalization of reasoning abilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.