SciResearcher: 최첨단 과학적 추론을 위한 딥 러닝 연구 에이전트 확장
SciResearcher: Scaling Deep Research Agents for Frontier Scientific Reasoning
최첨단 과학적 추론은 자동화된 과학적 발견 분야에서 AI 에이전트 발전을 위한 핵심 기반으로 빠르게 부상하고 있습니다. 딥 러닝 연구 에이전트는 이러한 과제에 대한 유망한 접근 방식을 제공합니다. 이러한 모델은 지식 그래프 구축 또는 반복적인 웹 검색을 통해 일반적으로 큐레이션되는 정보 검색 작업에 대한 추가 학습을 통해 강력한 문제 해결 능력을 개발합니다. 그러나 이러한 전략은 최첨단 과학 분야에서 내재적인 한계를 가지고 있습니다. 최첨단 과학 분야에서는 도메인별 지식이 산발적이고 이질적인 학술 자료에 흩어져 있으며, 문제 해결에는 사실적인 암기 이상의 정교한 계산과 추론이 필요합니다. 이러한 격차를 해소하기 위해, 우리는 최첨단 과학 데이터 구축을 위한 완전 자동 에이전트 프레임워크인 SciResearcher를 소개합니다. SciResearcher는 학술적 증거에 기반한 다양한 개념적 및 계산적 작업을 종합하며, 정보 획득, 도구 통합 추론 및 장기적인 기능 수행 능력을 이끌어냅니다. 큐레이션된 데이터를 활용하여 지도 학습 및 에이전트 강화 학습을 수행하여, SciResearcher-8B라는 에이전트 기반 모델을 개발했습니다. 이 모델은 HLE-Bio/Chem-Gold 벤치마크에서 19.46%의 성능을 달성하여 해당 파라미터 규모에서 새로운 최고 성능을 기록했으며, 여러 더 큰 독점 에이전트를 능가했습니다. 또한 SuperGPQA-Hard-Biology 및 TRQA-Literature 벤치마크에서 13-15%의 절대적인 성능 향상을 달성했습니다. 전반적으로, SciResearcher는 최첨단 과학적 추론을 위한 자동화된 데이터 구축에 대한 새로운 패러다임을 제시하며, 미래의 과학 에이전트에 대한 확장 가능한 경로를 제공합니다.
Frontier scientific reasoning is rapidly emerging as a key foundation for advancing AI agents in automated scientific discovery. Deep research agents offer a promising approach to this challenge. These models develop robust problem-solving capabilities through post-training on information-seeking tasks, which are typically curated via knowledge graph construction or iterative web browsing. However, these strategies face inherent limitations in frontier science, where domain-specific knowledge is scattered across sparse and heterogeneous academic sources, and problem solving requires sophisticated computation and reasoning far beyond factual recall. To bridge this gap, we introduce SciResearcher, a fully automated agentic framework for frontier-science data construction. SciResearcher synthesizes diverse conceptual and computational tasks grounded in academic evidence, while eliciting information acquisition, tool-integrated reasoning, and long-horizon capabilities. Leveraging the curated data for supervised fine-tuning and agentic reinforcement learning, we develop SciResearcher-8B, an agent foundation model that achieves 19.46% on the HLE-Bio/Chem-Gold benchmark, establishing a new state of the art at its parameter scale and surpassing several larger proprietary agents. It further achieves 13-15% absolute gains on SuperGPQA-Hard-Biology and TRQA-Literature benchmarks. Overall, SciResearcher introduces a new paradigm for automated data construction for frontier scientific reasoning and offers a scalable path toward future scientific agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.