MARS: 자동화된 인공지능 연구를 위한 모듈형 에이전트 및 반사적 탐색
MARS: Modular Agent with Reflective Search for Automated AI Research
자동화된 인공지능 연구는 일반적인 소프트웨어 엔지니어링과 달리, 계산 비용이 많이 드는 평가 (예: 모델 훈련)와 불투명한 성능 원인 분석이 필요합니다. 현재의 LLM 기반 에이전트는 이러한 어려움을 극복하는 데 어려움을 겪으며, 종종 실행 비용과 인과 관계 요인을 고려하지 않는 단일화된 스크립트를 생성합니다. 우리는 자율적인 인공지능 연구에 최적화된 프레임워크인 MARS (Modular Agent with Reflective Search)를 소개합니다. MARS는 다음 세 가지 핵심 요소에 기반합니다. (1) 비용 제약 Monte Carlo Tree Search (MCTS)를 통한 예산 기반 계획, 이를 통해 성능과 실행 비용의 균형을 명시적으로 맞춥니다. (2) 모듈형 구성: "설계-분해-구현" 파이프라인을 사용하여 복잡한 연구 저장소를 관리합니다. (3) 비교적 반사적 메모리: 솔루션의 차이점을 분석하여 유용한 정보를 추출함으로써 성과 기여도를 파악합니다. MARS는 동일한 환경에서 MLE-Bench에서 오픈 소스 프레임워크 중 최고 수준의 성능을 달성하며, 글로벌 리더보드의 최상위 방법과 경쟁력 있는 수준을 유지합니다. 또한, 이 시스템은 질적으로 의미 있는 "깨달음" 순간을 보여주는데, 활용된 모든 학습 정보의 63%가 서로 다른 브랜치 간의 전이로부터 비롯되어, 에이전트가 검색 경로 전반에 걸쳐 효과적으로 정보를 일반화한다는 것을 입증합니다.
Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.