2601.01931v1 Jan 05, 2026 cs.LG

DéjàQ: 다양하고 학습 가능하며 검증 가능한 문제의 개방형 진화

DéjàQ: Open-Ended Evolution of Diverse, Learnable and Verifiable Problems

Thomas Foster
Thomas Foster
Citations: 37
h-index: 3
Jakob N. Foerster
Jakob N. Foerster
Citations: 33
h-index: 3
Willem Röpke
Willem Röpke
Citations: 0
h-index: 0
Samuel Coward
Samuel Coward
Citations: 90
h-index: 3
Andrei Lupu
Andrei Lupu
Citations: 26
h-index: 2
Tim Rocktäschel
Tim Rocktäschel
Citations: 23,560
h-index: 44

최근의 추론 모델 발전은 수학 및 코딩 분야에서 인상적인 결과를 보여주었습니다. 그러나 대부분의 접근 방식은 정적인 데이터 세트에 의존하며, 이는 암기 경향을 유발하고 일반화 능력을 제한할 수 있다는 지적이 있습니다. 본 연구에서는 모델 훈련과 함께 다양한 합성 수학 문제를 동시에 진화시키는 프레임워크인 DéjàQ를 소개합니다. 이러한 진화 과정은 모델의 학습 능력에 맞춰 조정되며, 학습 가능성을 최적화합니다. 본 연구에서는 모델 자체를 사용하여 훈련 데이터를 변형하는 두 가지 LLM 기반의 변이 전략을 제안합니다. 이는 문맥 정보를 변경하거나 문제 구조를 직접 수정하는 방식으로 이루어집니다. 실험 결과, 모델이 새롭고 의미 있는 문제를 생성할 수 있으며, 이러한 LLM 기반의 변이가 강화 학습 훈련을 개선한다는 것을 확인했습니다. 또한, 생성된 문제의 유효성 및 계산 오버헤드와 같은 DéjàQ의 주요 측면을 분석했습니다. 본 연구 결과는 동적으로 진화하는 훈련 데이터가 수학적 추론 능력을 향상시킬 수 있는 잠재력을 보여주며, 더 넓은 분야에 적용될 수 있음을 시사합니다. 본 연구에서는 이러한 가능성을 뒷받침하기 위해 코드를 공개할 예정입니다.

Original Abstract

Recent advances in reasoning models have yielded impressive results in mathematics and coding. However, most approaches rely on static datasets, which have been suggested to encourage memorisation and limit generalisation. We introduce DéjàQ, a framework that departs from this paradigm by jointly evolving a diverse set of synthetic mathematical problems alongside model training. This evolutionary process adapts to the model's ability throughout training, optimising problems for learnability. We propose two LLM-driven mutation strategies in which the model itself mutates the training data, either by altering contextual details or by directly modifying problem structure. We find that the model can generate novel and meaningful problems, and that these LLM-driven mutations improve RL training. We analyse key aspects of DéjàQ, including the validity of generated problems and computational overhead. Our results underscore the potential of dynamically evolving training data to enhance mathematical reasoning and indicate broader applicability, which we will support by open-sourcing our code.

0 Citations
0 Influential
22 Altmetric
110.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!