2602.07906v2 Feb 08, 2026 cs.LG

AceGRPO: 적응형 커리큘럼 기반 그룹 상대 정책 최적화를 통한 자율 머신러닝 엔지니어링

AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

Xinyu Zhu
Xinyu Zhu
Citations: 160
h-index: 5
Yuzhu Cai
Yuzhu Cai
Citations: 102
h-index: 5
Zexi Liu
Zexi Liu
Citations: 90
h-index: 5
Siheng Chen
Siheng Chen
Citations: 29
h-index: 4
Cheng Wang
Cheng Wang
Citations: 11
h-index: 2

자율 머신러닝 엔지니어링(MLE)은 에이전트가 장기간에 걸쳐 지속적인 반복 최적화를 수행해야 합니다. 최근 등장한 LLM 기반 에이전트는 잠재력을 보여주지만, 현재 프롬프트 기반 MLE 에이전트는 고정된 파라미터로 인해 행동이 정체되는 문제가 있습니다. 강화학습(RL)은 이러한 문제를 해결할 수 있지만, MLE에 적용하기에는 실행 지연 시간이 너무 길고 데이터 선택 효율성이 낮습니다. 이러한 과제를 해결하기 위해, 우리는 두 가지 핵심 구성 요소를 갖는 AceGRPO를 제안합니다. (1) 실행 트레이스를 재사용 가능한 학습 작업으로 지속적으로 재구성하는 진화하는 데이터 버퍼, 그리고 (2) 학습 잠재력 함수에 의해 가이드되는 적응적 샘플링 방식으로, 에이전트의 학습 경계에서 우선적으로 학습해야 할 작업을 동적으로 선택하여 학습 효율성을 극대화합니다. AceGRPO를 활용하여 학습된 Ace-30B 모델은 MLE-Bench-Lite에서 100%의 유효 제출률을 달성했으며, 독점적인 최첨단 모델의 성능에 근접하고, 더 큰 오픈 소스 모델(예: DeepSeek-V3.2)보다 뛰어난 성능을 보여주며, 지속적인 반복 최적화에 대한 강력한 능력을 입증합니다. 관련 코드는 https://github.com/yuzhu-cai/AceGRPO 에서 확인할 수 있습니다.

Original Abstract

Autonomous Machine Learning Engineering (MLE) requires agents to perform sustained, iterative optimization over long horizons. While recent LLM-based agents show promise, current prompt-based agents for MLE suffer from behavioral stagnation due to frozen parameters. Although Reinforcement Learning (RL) offers a remedy, applying it to MLE is hindered by prohibitive execution latency and inefficient data selection. Recognizing these challenges, we propose AceGRPO with two core components: (1) Evolving Data Buffer that continuously repurposes execution traces into reusable training tasks, and (2) Adaptive Sampling guided by a Learnability Potential function, which dynamically prioritizes tasks at the agent's learning frontier to maximize learning efficiency. Leveraging AceGRPO, our trained Ace-30B model achieves a 100% valid submission rate on MLE-Bench-Lite, approaches the performance of proprietary frontier models, and outperforms larger open-source baselines (e.g., DeepSeek-V3.2), demonstrating robust capability for sustained iterative optimization. Code is available at https://github.com/yuzhu-cai/AceGRPO.

0 Citations
0 Influential
27.993061443341 Altmetric
140.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!