2604.15411v1 Apr 16, 2026 cs.LG

PRL-Bench: 최첨단 물리학 연구에서 LLM의 능력을 종합적으로 평가하는 벤치마크

PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

Wei Wang
Wei Wang
Citations: 0
h-index: 0
Zexi Liu
Zexi Liu
Citations: 135
h-index: 7
Yuzhi Zhang
Yuzhi Zhang
Citations: 1,732
h-index: 11
Zixing Lei
Zixing Lei
Citations: 674
h-index: 6
Shuo Chen
Shuo Chen
Citations: 79
h-index: 4
E. Weinan
E. Weinan
Citations: 167
h-index: 7
Jin Tan
Jin Tan
Citations: 7
h-index: 1
Siheng Chen
Siheng Chen
Citations: 244
h-index: 9
Tingjia Miao
Tingjia Miao
Citations: 22
h-index: 3
Wen-Long Jin
Wen-Long Jin
Citations: 10
h-index: 1
Muhua Zhang
Muhua Zhang
Citations: 8
h-index: 1
Yue Hu
Yue Hu
Citations: 383
h-index: 8
Tu Guo
Tu Guo
Citations: 9
h-index: 2
Jiejun Zhang
Jiejun Zhang
Citations: 59
h-index: 3
Wenbo Li
Wenbo Li
Citations: 4
h-index: 1
Yinuo Gao
Yinuo Gao
Citations: 4
h-index: 1
Yayun Hu
Yayun Hu
Citations: 4
h-index: 1
Xiang-yang Pang
Xiang-yang Pang
Citations: 1
h-index: 1
Linfeng Zhang
Linfeng Zhang
Citations: 18
h-index: 2
Kun Chen
Kun Chen
Citations: 170
h-index: 8
Yuhan Wang
Yuhan Wang
Citations: 88
h-index: 2
Wei Jiang
Wei Jiang
Citations: 2
h-index: 1

에이전트 기반 과학의 패러다임은 AI 시스템이 강력한 추론 능력을 갖추고 장기적인 자율 탐색을 수행하도록 요구합니다. 그러나 현재의 과학적 벤치마크는 주로 도메인 지식 이해 및 복잡한 추론에 국한되어 있으며, 실제 연구의 탐색적 특성과 절차적 복잡성을 평가하지 못합니다. 본 연구에서는 이론 및 계산 물리학 분야에서 연구 지향적인 평가를 제시하며, 이는 포괄적인 도메인 지식, 복잡한 추론, 그리고 실험에 의존하지 않는 검증 가능한 전체 워크플로우를 갖춘 자연스러운 테스트 환경입니다. 우리는 PRL-Bench (LLM을 이용한 물리학 연구)라는 벤치마크를 소개하며, 이는 LLM이 전체적인 물리학 연구를 수행하는 데 있어 능력의 경계를 체계적으로 파악하도록 설계되었습니다. PRL-Bench는 2025년 8월 이후 Physical Review Letters 최신호에 게재된 100편의 엄선된 논문으로 구성되었으며, 해당 분야 전문가에 의해 검증되었습니다. PRL-Bench는 현대 물리학의 5가지 주요 이론 및 계산 중심 분야인 천체물리학, 응집물질물리학, 고에너지물리학, 양자정보, 그리고 통계물리학을 포괄합니다. 벤치마크의 각 작업은 탐색 지향적인 문제 정의, 장기적인 워크플로우, 그리고 객관적인 검증 가능성과 같은 실제 과학 연구의 핵심 특성을 재현하도록 설계되었으며, 이를 통해 실제 물리학 연구의 필수적인 추론 과정 및 연구 워크플로우를 재구성합니다. 최첨단 모델에 대한 평가 결과, 성능은 여전히 제한적이며, 최고 점수는 50 미만으로, 현재 LLM의 능력과 실제 과학 연구의 요구 사이에는 상당한 격차가 있음을 보여줍니다. PRL-Bench는 차세대 AI 과학자를 위한 신뢰할 수 있는 테스트 환경이며, AI 시스템을 자율적인 과학적 발견으로 발전시키는 데 기여할 것입니다.

Original Abstract

The paradigm of agentic science requires AI systems to conduct robust reasoning and engage in long-horizon, autonomous exploration. However, current scientific benchmarks remain confined to domain knowledge comprehension and complex reasoning, failing to evaluate the exploratory nature and procedural complexity of real-world research. In this work, we present research-oriented evaluations in theoretical and computational physics, a natural testbed with comprehensive domain knowledge, complex reasoning, and verifiable end-to-end workflows without reliance on experiments. Here we introduce PRL-Bench (Physics Research by LLMs), a benchmark designed to systematically map the capability boundaries of LLMs in executing end-to-end physics research. Constructed from 100 curated papers from the latest issues of Physical Review Letters since August 2025 and validated by domain experts, PRL-Bench covers five major theory- and computation-intensive subfields of modern physics: astrophysics, condensed matter physics, high-energy physics, quantum information, and statistical physics. Each task in the benchmark is designed to replicate the core properties of authentic scientific research, including exploration-oriented formulation, long-horizon workflows, and objective verifiability, thereby reconstructing the essential reasoning processes and research workflows of real physics research. Evaluation across frontier models shows that performance remains limited, with the best overall score below 50, revealing a pronounced gap between current LLM capabilities and the demands of real scientific research. PRL-Bench serves a reliable testbed for accessing next generation AI scientists advancing AI systems toward autonomous scientific discovery.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!