EvoMaster: 에이전트 과학의 대규모화를 위한 기초적인 진화형 에이전트 프레임워크
EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale
대규모 언어 모델과 에이전트의 융합은 새로운 과학적 발견의 시대를 열고 있습니다: 에이전트 과학. 기존의 에이전트 프레임워크는 대부분 정적이며, 좁은 범위에 국한되어 있고, 시행착오를 통해 학습하는 능력이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 에이전트 과학의 대규모화를 위해 특별히 설계된 기초적인 진화형 에이전트 프레임워크인 EvoMaster를 제시합니다. 핵심 원칙인 지속적인 자기 진화를 기반으로, EvoMaster는 에이전트가 가설을 반복적으로 개선하고, 스스로 비판하며, 실험 주기를 통해 점진적으로 지식을 축적하도록 지원하여, 인간의 과학적 탐구를 충실히 반영합니다. 더욱 중요한 점은, EvoMaster는 도메인에 구애받지 않는 기본 플랫폼으로서, 개발자가 약 100줄의 코드로 매우 강력하고 자율적으로 진화하는 과학 에이전트를 구축하고 배포할 수 있도록 하여 확장성이 뛰어납니다. EvoMaster를 기반으로, 우리는 머신 러닝, 물리학, 일반 과학 등 다양한 분야에서 SciMaster 에코시스템을 구축했습니다. 네 가지 권위 있는 벤치마크(Humanity's Last Exam, MLE-Bench Lite, BrowseComp, FrontierScience)에 대한 평가 결과, EvoMaster는 각각 41.1%, 75.8%, 73.3%, 53.3%의 최고 수준의 점수를 달성했습니다. 이는 범용적인 기본 모델인 OpenClaw보다 +159%에서 +316%까지 성능이 향상되어, 차세대 자율적 과학적 발견을 위한 최고의 기본 프레임워크로서의 효능과 일반성을 강력하게 검증합니다. EvoMaster는 https://github.com/sjtu-sai-agents/EvoMaster 에서 사용할 수 있습니다.
The convergence of large language models and agents is catalyzing a new era of scientific discovery: Agentic Science. While the scientific method is inherently iterative, existing agent frameworks are predominantly static, narrowly scoped, and lack the capacity to learn from trial and error. To bridge this gap, we present EvoMaster, a foundational evolving agent framework engineered specifically for Agentic Science at Scale. Driven by the core principle of continuous self-evolution, EvoMaster empowers agents to iteratively refine hypotheses, self-critique, and progressively accumulate knowledge across experimental cycles, faithfully mirroring human scientific inquiry. Crucially, as a domain-agnostic base harness, EvoMaster is exceptionally easy to scale up -- enabling developers to build and deploy highly capable, self-evolving scientific agents for arbitrary disciplines in approximately 100 lines of code. Built upon EvoMaster, we incubated the SciMaster ecosystem across domains such as machine learning, physics, and general science. Evaluations on four authoritative benchmarks (Humanity's Last Exam, MLE-Bench Lite, BrowseComp, and FrontierScience) demonstrate that EvoMaster achieves state-of-the-art scores of 41.1%, 75.8%, 73.3%, and 53.3%, respectively. It comprehensively outperforms the general-purpose baseline OpenClaw with relative improvements ranging from +159% to +316%, robustly validating its efficacy and generality as the premier foundational framework for the next generation of autonomous scientific discovery. EvoMaster is available at https://github.com/sjtu-sai-agents/EvoMaster.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.