실행 기반 자동화된 인공지능 연구 지향
Towards Execution-Grounded Automated AI Research
자동화된 인공지능 연구는 과학적 발견을 가속화할 수 있는 큰 잠재력을 가지고 있습니다. 그러나 현재의 LLM(대규모 언어 모델)은 종종 그럴듯해 보이지만 비효율적인 아이디어를 생성하는 경우가 많습니다. 실행 기반 접근 방식이 도움이 될 수 있지만, 자동화된 실행이 실현 가능한지, 그리고 LLM이 실행 피드백으로부터 학습할 수 있는지 여부는 불확실합니다. 이러한 문제들을 조사하기 위해, 우리는 먼저 아이디어를 구현하고 그 효과성을 검증하기 위한 자동화된 실행기를 구축하고, 대규모 병렬 GPU 실험을 진행합니다. 그런 다음, LLM 사전 훈련 및 사후 훈련이라는 두 가지 현실적인 연구 문제를 실행 환경으로 변환하고, 우리의 자동화된 실행기가 최첨단 LLM에서 샘플링된 많은 아이디어를 구현할 수 있음을 보여줍니다. 우리는 실행 피드백으로부터 학습하기 위한 두 가지 방법을 분석합니다: 진화적 탐색과 강화 학습. 실행 기반 진화적 탐색은 샘플 효율성이 높습니다. 이는 사후 훈련에서 GRPO 기준 모델보다 훨씬 뛰어난 성능을 보이는 방법을 발견하며 (69.4% vs 48.0%), 사전 훈련에서 nanoGPT 기준 모델보다 더 빠른 학습 시간을 달성합니다 (19.7분 vs 35.9분), 단 10번의 탐색 에포크 내에 이를 달성합니다. 최첨단 LLM은 탐색 과정에서 의미 있는 알고리즘 아이디어를 자주 생성하지만, 초기 단계에서 빠르게 포화되고, 드물게 확장 추세를 나타냅니다. 반면, 실행 기반 보상을 활용한 강화 학습은 모드 붕괴 문제를 겪습니다. 강화 학습은 아이디어 생성 모델의 평균 보상을 향상시키는 데 성공하지만, 최고 성능을 향상시키지는 못합니다. 이는 모델이 단순한 아이디어에 수렴하기 때문입니다. 우리는 실행된 아이디어와 학습 동역학을 철저히 분석하여, 실행 기반 자동화된 인공지능 연구를 위한 미래의 노력을 지원하고자 합니다.
Automated AI research holds great potential to accelerate scientific discovery. However, current LLMs often generate plausible-looking but ineffective ideas. Execution grounding may help, but it is unclear whether automated execution is feasible and whether LLMs can learn from the execution feedback. To investigate these, we first build an automated executor to implement ideas and launch large-scale parallel GPU experiments to verify their effectiveness. We then convert two realistic research problems - LLM pre-training and post-training - into execution environments and demonstrate that our automated executor can implement a large fraction of the ideas sampled from frontier LLMs. We analyze two methods to learn from the execution feedback: evolutionary search and reinforcement learning. Execution-guided evolutionary search is sample-efficient: it finds a method that significantly outperforms the GRPO baseline (69.4% vs 48.0%) on post-training, and finds a pre-training recipe that outperforms the nanoGPT baseline (19.7 minutes vs 35.9 minutes) on pre-training, all within just ten search epochs. Frontier LLMs often generate meaningful algorithmic ideas during search, but they tend to saturate early and only occasionally exhibit scaling trends. Reinforcement learning from execution reward, on the other hand, suffers from mode collapse. It successfully improves the average reward of the ideator model but not the upper-bound, due to models converging on simple ideas. We thoroughly analyze the executed ideas and training dynamics to facilitate future efforts towards execution-grounded automated AI research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.