AIRS-Bench: 프론티어 AI 연구 과학 에이전트를 위한 작업 스위트
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
LLM 에이전트는 과학 연구를 발전시키는 데 있어 상당한 가능성을 가지고 있습니다. 이러한 진전을 가속화하기 위해, 우리는 최신 머신러닝 논문에서 발췌한 20개의 작업으로 구성된 스위트인 AIRS-Bench(AI Research Science Benchmark)를 소개합니다. 이 작업들은 언어 모델링, 수학, 생물정보학 및 시계열 예측을 포함한 다양한 도메인을 포괄합니다. AIRS-Bench 작업은 베이스라인 코드를 제공하지 않은 상태에서 아이디어 생성, 실험 분석 및 반복적 개선을 포함한 전체 연구 수명 주기에 걸쳐 에이전트의 역량을 평가합니다. AIRS-Bench 작업 형식은 범용성이 뛰어나 새로운 작업을 쉽게 통합할 수 있으며 다양한 에이전트 프레임워크 간의 엄격한 비교가 가능합니다. 우리는 순차적 및 병렬적 스캐폴드(scaffold)와 결합된 프론티어 모델을 사용하여 베이스라인을 수립했습니다. 연구 결과에 따르면 에이전트는 4개의 작업에서 인간 SOTA(최고 성능)를 능가했지만, 다른 16개 작업에서는 이에 미치지 못했습니다. 에이전트가 인간 벤치마크를 넘어선 경우에도 기본 작업에 대한 이론적 성능 상한선에는 도달하지 못했습니다. 이러한 결과는 AIRS-Bench가 아직 포화 상태와는 거리가 멀며 상당한 개선의 여지가 있음을 시사합니다. 우리는 자율 과학 연구의 추가적인 발전을 촉진하기 위해 AIRS-Bench 작업 정의와 평가 코드를 오픈 소스로 공개합니다.
LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.