2605.06660v1 May 07, 2026 cs.LG

검증기 기반의 어려운 문제 생성: 수학적 추론을 위한 접근

Verifier-Backed Hard Problem Generation for Mathematical Reasoning

Y. Teh
Y. Teh
Citations: 1,000
h-index: 5
Jiazhan Feng
Jiazhan Feng
Citations: 200
h-index: 5
Yuhang Lai
Yuhang Lai
Citations: 591
h-index: 5
Ning Miao
Ning Miao
Citations: 61
h-index: 5

대규모 언어 모델(LLM)은 과학 및 수학 문제 해결 능력에서 뛰어난 성능을 보이지만, 유효하고 도전적이며 새로운 문제를 생성하는 데 어려움을 겪습니다. 이는 LLM 훈련을 발전시키고 자율적인 과학 연구를 가능하게 하는 데 필수적인 요소입니다. 기존의 문제 생성 방법은 고가의 전문가의 참여에 의존하거나, 종종 보상 해킹으로 인해 유효하지 않은 문제를 생성하는 단순한 자기 학습 방식을 채택합니다. 본 연구에서는 세 당사자 자기 학습을 기반으로, 독립적인 검증기를 통합한 검증기 강화형 어려운 문제 생성 프레임워크인 VHG를 소개합니다. 우리의 설계는 기존의 문제 제시자-해결자 이중성을 활용하여, 문제 제시자의 보상을 문제의 유효성(검증기에 의해 평가)과 난이도(해결자에 의해 평가)를 공동으로 고려하여 결정되도록 제한합니다. 우리는 두 가지 검증기 변형(하드 심볼릭 검증기와 소프트 LLM 기반 검증기)을 구현하고, 부정적 적분 문제와 일반적인 수학적 추론 문제에 대한 평가를 수행했습니다. 실험 결과는 VHG가 모든 기존 방법보다 현저하게 뛰어난 성능을 보임을 보여줍니다.

Original Abstract

Large Language Models (LLMs) demonstrate strong capabilities for solving scientific and mathematical problems, yet they struggle to produce valid, challenging, and novel problems - an essential component for advancing LLM training and enabling autonomous scientific research. Existing problem generation approaches either depend on expensive human expert involvement or adopt naive self-play paradigms, which frequently yield invalid problems due to reward hacking. This work introduces VHG, a verifier-enhanced hard problem generation framework built upon three-party self-play. By integrating an independent verifier into the conventional setter-solver duality, our design constrains the setter's reward to be jointly determined by problem validity (evaluated by the verifier) and difficulty (assessed by the solver). We instantiate two verifier variants: a Hard symbolic verifier and a Soft LLM-based verifier, with evaluations conducted on indefinite integral tasks and general mathematical reasoning tasks. Experimental results show that VHG substantially outperforms all baseline methods by a clear margin.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!