2602.15112v1 Feb 16, 2026 cs.AI

ResearchGym: 실제 AI 연구 분야에서 언어 모델 에이전트 평가

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Manasi S. Patwardhan
Manasi S. Patwardhan
Citations: 285
h-index: 9
Aniketh Garikaparthi
Aniketh Garikaparthi
Citations: 12
h-index: 2
Arman Cohan
Arman Cohan
Citations: 147
h-index: 4

본 연구에서는 AI 에이전트를 엔드투엔드 연구 방식으로 평가하기 위한 벤치마크 및 실행 환경인 ResearchGym을 소개합니다. 이를 위해 ICML, ICLR 및 ACL에서 발표된 다섯 편의 논문(구두 발표 및 특별 발표)을 활용했습니다. 각 논문의 저장소에서 데이터셋, 평가 도구 및 기본 구현을 유지하면서, 논문에 제안된 방법은 제외했습니다. 결과적으로 총 39개의 하위 작업으로 구성된 다섯 개의 컨테이너화된 작업 환경이 생성되었습니다. 각 환경 내에서 에이전트는 새로운 가설을 제시하고, 실험을 수행하며, 논문에 제시된 지표에서 강력한 인간 기준 성능을 능가하도록 노력해야 합니다. GPT-5로 구동되는 에이전트에 대한 통제된 평가 결과, 상당한 성능-신뢰성 격차가 나타났습니다. 에이전트는 저장소에서 제공된 기본 구현보다 15번의 평가 중 단 1번(6.7%)에서 11.5% 향상된 성능을 보였으며, 평균적으로 26.5%의 하위 작업을 완료하는 데 그쳤습니다. 우리는 조급함, 시간 및 자원 관리 부족, 취약한 가설에 대한 과신, 병렬 실험 조정의 어려움, 컨텍스트 길이 제한 등 반복되는 장기적인 실패 요인을 확인했습니다. 하지만, 한 번의 실행에서 에이전트는 ICML 2025 특별 발표 과제의 해결책을 능가하는 성능을 보여주었으며, 이는 최첨단 에이전트가 때때로 최첨단 성능을 달성할 수 있지만, 그 성능이 불안정하다는 것을 시사합니다. 또한, Claude Code (Opus-4.5) 및 Codex (GPT-5.2)와 같은 독점적인 에이전트 프레임워크를 평가한 결과, 유사한 격차가 관찰되었습니다. ResearchGym은 폐쇄 루프 연구에서 자율 에이전트에 대한 체계적인 평가 및 분석을 위한 인프라를 제공합니다.

Original Abstract

We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!