2602.06855v3 Feb 06, 2026 cs.AI

AIRS-Bench: 최첨단 AI 연구를 위한 과학 에이전트 평가 도구 모음

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

R. Raileanu
R. Raileanu
Citations: 20,548
h-index: 28
A. Budhiraja
A. Budhiraja
Citations: 73
h-index: 3
A. Lupidi
A. Lupidi
Citations: 62
h-index: 4
Bhavul Gauri
Bhavul Gauri
Citations: 14
h-index: 3
Thomas Foster
Thomas Foster
Citations: 37
h-index: 3
Bassel Al Omari
Bassel Al Omari
Citations: 45
h-index: 2
Despoina Magka
Despoina Magka
Citations: 428
h-index: 9
Alexis Audran-Reiss
Alexis Audran-Reiss
Citations: 26
h-index: 3
Muna Aghamelu
Muna Aghamelu
Citations: 0
h-index: 0
Lucia Cipolina-Kun
Lucia Cipolina-Kun
Citations: 76
h-index: 3
Jean-Christophe Gagnon-Audet
Jean-Christophe Gagnon-Audet
Citations: 212
h-index: 6
C. Leow
C. Leow
Citations: 940
h-index: 15
Sandra Lefdal
Sandra Lefdal
Citations: 2,111
h-index: 2
Hossam Mossalam
Hossam Mossalam
Citations: 176
h-index: 1
A. Moudgil
A. Moudgil
Citations: 267
h-index: 5
S. Nazir
S. Nazir
Citations: 95
h-index: 5
Emanuel Tewolde
Emanuel Tewolde
Citations: 4
h-index: 1
Isabel Urrego
Isabel Urrego
Citations: 0
h-index: 0
J. Estapé
J. Estapé
Citations: 9
h-index: 2
Gaurav Chaurasia
Gaurav Chaurasia
Citations: 58
h-index: 2
Abhishek Charnalia
Abhishek Charnalia
Citations: 61
h-index: 3
Derek Dunfield
Derek Dunfield
Citations: 22
h-index: 2
K. Hambardzumyan
K. Hambardzumyan
Citations: 0
h-index: 0
Daniel Izcovich
Daniel Izcovich
Citations: 9
h-index: 1
Martin Josifoski
Martin Josifoski
Citations: 1,066
h-index: 12
Ishita Mediratta
Ishita Mediratta
Citations: 709
h-index: 7
Kelvin Niu
Kelvin Niu
Citations: 24
h-index: 2
Parth Pathak
Parth Pathak
Citations: 6
h-index: 1
Michael Shvartsman
Michael Shvartsman
Citations: 35
h-index: 3
Edan Toledo
Edan Toledo
Citations: 34
h-index: 3
Anton Protopopov
Anton Protopopov
Citations: 4
h-index: 1
Alexander H. Miller
Alexander H. Miller
Citations: 23
h-index: 2
T. Shavrina
T. Shavrina
Citations: 0
h-index: 0
Jakob Foerster
Jakob Foerster
Citations: 76
h-index: 2
Yoram Bachrach
Yoram Bachrach
Citations: 6,133
h-index: 41
A. Pepe
A. Pepe
Citations: 2,689
h-index: 18
Nicola Baldwin
Nicola Baldwin
Citations: 10
h-index: 1

대규모 언어 모델(LLM) 에이전트는 과학 연구 발전에 큰 잠재력을 가지고 있습니다. 이러한 발전을 가속화하기 위해, 우리는 AIRS-Bench (AI Research Science Benchmark)를 소개합니다. AIRS-Bench는 최첨단 머신러닝 논문에서 추출한 20개의 작업으로 구성된 평가 도구 모음입니다. 이러한 작업들은 언어 모델링, 수학, 생물정보학, 시계열 예측 등 다양한 분야를 포괄합니다. AIRS-Bench 작업은 아이디어 생성, 실험 분석 및 반복적인 개선과 같은 연구 생명 주기 전반에 걸쳐 에이전트의 능력을 평가하며, 기준 코드를 제공하지 않습니다. AIRS-Bench 작업 형식이 유연하여 새로운 작업을 쉽게 통합하고 다양한 에이전트 프레임워크 간의 엄격한 비교를 가능하게 합니다. 우리는 최첨단 모델과 순차적 및 병렬 구조를 결합하여 기준 성능을 설정했습니다. 우리의 결과는 에이전트가 4개의 작업에서 인간 최고 성능(SOTA)을 능가하지만, 16개의 작업에서는 그렇지 않음을 보여줍니다. 에이전트가 인간 벤치마크를 능가하더라도, 해당 작업의 이론적인 성능 한계에 도달하지 못합니다. 이러한 결과는 AIRS-Bench가 아직 발전의 여지가 많다는 것을 시사합니다. 우리는 AIRS-Bench 작업 정의 및 평가 코드를 공개하여 자율적인 과학 연구 분야의 추가적인 발전을 촉진하고자 합니다.

Original Abstract

LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.

0 Citations
0 Influential
20.5 Altmetric
102.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!