SciPredict: LLM은 자연과학 분야의 과학 실험 결과 예측이 가능한가?
SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?
과학적 발견을 가속화하기 위해서는, 자원을 투입하기 전에 어떤 실험이 가장 좋은 결과를 가져올지 예측하는 것이 중요합니다. 기존의 벤치마크들은 LLM의 과학 지식 및 추론 능력을 평가하지만, AI가 인간의 능력을 크게 능가할 수 있는 실험 결과 예측 능력은 아직 충분히 연구되지 않았습니다. 본 연구에서는 물리학, 생물학, 화학의 33개 세부 분야에서 진행된 최근의 경험적 연구에서 파생된 405개의 작업으로 구성된 벤치마크인 SciPredict를 소개합니다. SciPredict는 다음과 같은 두 가지 중요한 질문에 답하고자 합니다: (a) LLM이 과학 실험 결과를 충분한 정확도로 예측할 수 있는가? 그리고 (b) 이러한 예측이 과학 연구 과정에서 신뢰성 있게 사용될 수 있는가? 평가 결과, 두 가지 측면에서 모두 근본적인 한계가 드러났습니다. 모델의 정확도는 14-26%이며, 인간 전문가의 성능은 약 20%입니다. 일부 최첨단 모델이 인간의 성능을 능가하지만, 모델 정확도는 여전히 신뢰성 있는 실험 지침을 제공할 수 있는 수준에 훨씬 미치지 못합니다. 제한된 성능에도 불구하고, 모델은 신뢰할 수 있는 예측과 신뢰할 수 없는 예측을 구분하지 못하고, 신뢰도나 물리적 실험 없이 결과를 예측 가능하다고 판단하더라도 약 20%의 정확도에 머무릅니다. 반면, 인간 전문가들은 강력한 교정을 보여주는데, 실험을 수행하지 않고 결과의 예측 가능성이 높다고 판단할수록 정확도가 약 5%에서 약 80%로 증가합니다. SciPredict는 엄격한 프레임워크를 제시하며, 실험 과학 분야에서 인간을 능가하는 성능을 달성하려면 더 나은 예측뿐만 아니라 예측의 신뢰성에 대한 더 나은 이해가 필요함을 보여줍니다. 재현성을 위해 모든 데이터와 코드는 https://github.com/scaleapi/scipredict 에서 제공됩니다.
Accelerating scientific discovery requires the identification of which experiments would yield the best outcomes before committing resources to costly physical validation. While existing benchmarks evaluate LLMs on scientific knowledge and reasoning, their ability to predict experimental outcomes - a task where AI could significantly exceed human capabilities - remains largely underexplored. We introduce SciPredict, a benchmark comprising 405 tasks derived from recent empirical studies in 33 specialized sub-fields of physics, biology, and chemistry. SciPredict addresses two critical questions: (a) can LLMs predict the outcome of scientific experiments with sufficient accuracy? and (b) can such predictions be reliably used in the scientific research process? Evaluations reveal fundamental limitations on both fronts. Model accuracies are 14-26% and human expert performance is $\approx$20%. Although some frontier models exceed human performance model accuracy is still far below what would enable reliable experimental guidance. Even within the limited performance, models fail to distinguish reliable predictions from unreliable ones, achieving only $\approx$20% accuracy regardless of their confidence or whether they judge outcomes as predictable without physical experimentation. Human experts, in contrast, demonstrate strong calibration: their accuracy increases from $\approx$5% to $\approx$80% as they deem outcomes more predictable without conducting the experiment. SciPredict establishes a rigorous framework demonstrating that superhuman performance in experimental science requires not just better predictions, but better awareness of prediction reliability. For reproducibility all our data and code are provided at https://github.com/scaleapi/scipredict
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.