코딩 에이전트는 계산 재료 과학 분야의 연구 결과를 재현할 수 있는가?
Can Coding Agents Reproduce Findings in Computational Materials Science?
최근 대규모 언어 모델(LLM)은 자율 코딩 에이전트로 활용되며, 소프트웨어 엔지니어링 벤치마크에서 놀라운 성능을 보여주고 있습니다. 그러나 이러한 성공이 계산 과학 워크플로우에 얼마나 적용될 수 있는지는 불분명합니다. 계산 과학 워크플로우는 강력한 코딩 능력뿐만 아니라 복잡하고 전문적인 절차를 이해하고, 과학적 주장의 맥락에서 결과를 해석하는 능력 또한 요구하기 때문입니다. 이러한 질문에 답하기 위해, LLM 기반 에이전트의 능력을 평가하는 벤치마크인 AutoMat을 제시합니다. AutoMat은 세 가지 상호 관련된 과제를 제시합니다. 첫째, 불완전하게 명시된 계산 절차를 복원하는 것, 둘째, 특수 도구 체인을 사용하는 것, 셋째, 결과 증거가 특정 주장을 뒷받침하는지 여부를 판단하는 것입니다. 우리는 해당 분야 전문가들과 긴밀하게 협력하여 실제 재료 과학 논문에서 추출한 주장을 기반으로, 코딩 에이전트가 이러한 주장을 뒷받침하거나 반박하기 위해 필요한 전체 워크플로우를 복원하고 실행할 수 있는지 테스트합니다. 그런 다음, 여러 기초 모델에서 다양한 코딩 에이전트 설정을 평가합니다. 그 결과, 현재 LLM 기반 에이전트는 AutoMat에서 전반적으로 낮은 성공률을 보이며, 가장 성능이 좋은 설정에서도 54.1%의 성공률에 그쳤습니다. 오류 분석 결과, 에이전트가 워크플로우를 논문 텍스트만으로 재구성해야 할 때 가장 낮은 성능을 보이며, 주로 불완전한 절차, 방법론적 오류, 실행의 불안정성으로 인해 실패하는 것으로 나타났습니다. 종합적으로 볼 때, 이러한 연구 결과는 AutoMat을 계산 과학의 재현성을 평가하는 벤치마크이자, AI를 활용한 과학 분야에서 에이전트 시스템의 현재 한계를 진단하는 도구로 활용될 수 있음을 시사합니다.
Large language models are increasingly deployed as autonomous coding agents and have achieved remarkably strong performance on software engineering benchmarks. However, it is unclear whether such success transfers to computational scientific workflows, where tasks require not only strong coding ability, but also the ability to navigate complex, domain-specific procedures and to interpret results in the context of scientific claims. To address this question, we present AutoMat, a benchmark for evaluating LLM-based agents' ability to reproduce claims from computational materials science. AutoMat poses three interrelated challenges: recovering underspecified computational procedures, navigating specialized toolchains, and determining whether the resulting evidence supports a claim. By working closely with subject matter experts, we curate a set of claims from real materials science papers to test whether coding agents can recover and execute the end-to-end workflow needed to support (or undermine) such claims. We then evaluate multiple representative coding agent settings across several foundation models. Our results show that current LLM-based agents obtain low overall success rates on AutoMat, with the best-performing setting achieving a success rate of only 54.1%. Error analysis further reveals that agents perform worst when workflows must be reconstructed from paper text alone and that they fail primarily due to incomplete procedures, methodological deviations, and execution fragility. Taken together, these findings position AutoMat as both a benchmark for computational scientific reproducibility and a tool for diagnosing the current limitations of agentic systems in AI-for-science settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.