2602.01660v1 Feb 02, 2026 cs.CL

CoDiQ: 테스트 시간 스케일링을 통한 제어 가능한 난이도 질문 생성

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

Changyi Xiao
Changyi Xiao
Citations: 29
h-index: 3
Yixin Cao
Yixin Cao
Citations: 41
h-index: 3
Caijun Xu
Caijun Xu
Citations: 1
h-index: 1
Zhongyuan Peng
Zhongyuan Peng
Citations: 7
h-index: 1
Stephen Huang
Stephen Huang
Citations: 0
h-index: 0
Shibo Hong
Shibo Hong
Citations: 53
h-index: 3
Eli Zhang
Eli Zhang
Citations: 0
h-index: 0

대규모 추론 모델(LRM)은 어려운, 경쟁 수준의 질문으로 학습할 때 큰 이점을 얻습니다. 그러나 기존의 자동 질문 생성 방법은 정확한 난이도 제어가 어렵고, 높은 계산 비용이 발생하며, 경쟁 수준의 질문을 대규모로 생성하는 데 어려움을 겪습니다. 본 논문에서는 테스트 시간 스케일링을 통해 미세한 난이도 제어를 가능하게 하고, 동시에 질문 해결 가능성을 보장하는 새로운 프레임워크인 CoDiQ(Controllable Difficult Question Generation)를 제안합니다. 구체적으로, 먼저 테스트 시간 스케일링 경향(확장된 추론 토큰 예산은 난이도를 높이지만 해결 가능성을 낮춤)과 모델이 유효하고 높은 난이도의 질문을 생성할 수 있는 상한을 정의하는 고유한 특성을 파악합니다. 그런 다음, Qwen3-8B를 기반으로 CoDiQ-Generator를 개발하여 어려운 질문 생성의 상한을 개선하고, 특히 어려운 질문 구성을 위한 최적의 솔루션을 제공합니다. CoDiQ 프레임워크를 기반으로 44,000개의 경쟁 수준의 질문 시퀀스로 구성된 CoDiQ-Corpus를 구축했습니다. 인간 평가 결과, 이러한 질문은 LiveCodeBench/AIME보다 훨씬 더 어렵지만, 82% 이상의 해결 가능성을 보입니다. CoDiQ-Corpus로 LRM을 학습하면 추론 성능이 크게 향상되며, 이는 제어된 난이도의 학습 질문을 활용하여 추론 능력을 향상시킬 수 있음을 입증합니다. CoDiQ-Corpus, CoDiQ-Generator 및 구현 코드를 공개하여 관련 연구를 지원합니다.

Original Abstract

Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!