초장기 에이전트 과학을 향하여: 머신러닝 엔지니어링을 위한 인지적 축적
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
에이전트 과학을 향한 인공지능의 발전은 현재 수일 또는 수주에 걸친 실험 주기 동안 전략적 일관성과 반복적 수정을 유지하는 능력인 '초장기 자율성'이라는 난제에 의해 병목 현상을 겪고 있습니다. 거대 언어 모델(LLM)은 단기 추론에는 뛰어난 능력을 보여주었지만, 실제 연구 환경의 고차원적이고 피드백이 지연되는 환경에서는 실행 세부 사항에 쉽게 압도당하며, 희소한 피드백을 일관된 장기적 지침으로 통합하는 데 실패합니다. 본 논문에서는 과학적 발견의 대표적인 축소판인 초장기 머신러닝 엔지니어링(MLE)을 마스터하는 자율 에이전트인 ML-Master 2.0을 제안합니다. 컨텍스트 관리를 인지적 축적의 과정으로 재구성함으로써, 우리는 컴퓨터 시스템에서 영감을 받아 시간의 흐름에 따른 경험의 구조적 분화를 가능하게 하는 다계층 아키텍처인 '계층적 인지 캐싱(HCC)'을 도입합니다. HCC는 일시적인 실행 기록을 안정적인 지식과 여러 태스크에 적용 가능한 지혜로 동적으로 정제함으로써, 에이전트가 즉각적인 실행과 장기적인 실험 전략을 분리하게 하여 정적 컨텍스트 윈도우의 확장 한계를 효과적으로 극복할 수 있도록 합니다. 24시간 예산 하에 수행된 OpenAI의 MLE-Bench 평가에서 ML-Master 2.0은 56.44%라는 최고 수준(SOTA)의 메달 획득률을 달성했습니다. 우리의 연구 결과는 초장기 자율성이 인간의 선례를 뛰어넘는 복잡성을 자율적으로 탐구할 수 있는 AI를 위한 확장 가능한 청사진을 제공함을 입증합니다.
The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.