DéjàQ: 다양하고 학습 가능하며 검증 가능한 문제의 개방형 진화
DéjàQ: Open-Ended Evolution of Diverse, Learnable and Verifiable Problems
최근의 추론 모델 발전은 수학 및 코딩 분야에서 인상적인 결과를 보여주었습니다. 그러나 대부분의 접근 방식은 정적인 데이터 세트에 의존하며, 이는 암기 경향을 유발하고 일반화 능력을 제한할 수 있다는 지적이 있습니다. 본 연구에서는 모델 훈련과 함께 다양한 합성 수학 문제를 동시에 진화시키는 프레임워크인 DéjàQ를 소개합니다. 이러한 진화 과정은 모델의 학습 능력에 맞춰 조정되며, 학습 가능성을 최적화합니다. 본 연구에서는 모델 자체를 사용하여 훈련 데이터를 변형하는 두 가지 LLM 기반의 변이 전략을 제안합니다. 이는 문맥 정보를 변경하거나 문제 구조를 직접 수정하는 방식으로 이루어집니다. 실험 결과, 모델이 새롭고 의미 있는 문제를 생성할 수 있으며, 이러한 LLM 기반의 변이가 강화 학습 훈련을 개선한다는 것을 확인했습니다. 또한, 생성된 문제의 유효성 및 계산 오버헤드와 같은 DéjàQ의 주요 측면을 분석했습니다. 본 연구 결과는 동적으로 진화하는 훈련 데이터가 수학적 추론 능력을 향상시킬 수 있는 잠재력을 보여주며, 더 넓은 분야에 적용될 수 있음을 시사합니다. 본 연구에서는 이러한 가능성을 뒷받침하기 위해 코드를 공개할 예정입니다.
Recent advances in reasoning models have yielded impressive results in mathematics and coding. However, most approaches rely on static datasets, which have been suggested to encourage memorisation and limit generalisation. We introduce DéjàQ, a framework that departs from this paradigm by jointly evolving a diverse set of synthetic mathematical problems alongside model training. This evolutionary process adapts to the model's ability throughout training, optimising problems for learnability. We propose two LLM-driven mutation strategies in which the model itself mutates the training data, either by altering contextual details or by directly modifying problem structure. We find that the model can generate novel and meaningful problems, and that these LLM-driven mutations improve RL training. We analyse key aspects of DéjàQ, including the validity of generated problems and computational overhead. Our results underscore the potential of dynamically evolving training data to enhance mathematical reasoning and indicate broader applicability, which we will support by open-sourcing our code.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.