에이전트가 반응 가격을 결정할 수 있을까? 화학 비용 추론에 대한 LLM 평가
Can Agents Price a Reaction? Evaluating LLMs on Chemical Cost Reasoning
대규모 언어 모델(LLM)은 도구 사용 에이전트로서 점점 더 강력해지고 있으며, 다양한 일반적인 에이전트 작업에 대한 벤치마크가 존재합니다. 그러나 과학 도구 사용에 대한 엄격한 평가는 여전히 제한적입니다. 화학 분야에서 최근의 에이전트는 합성 계획을 세우고 도메인별 도구를 호출할 수 있지만, 평가는 종종 선별된 예시, 전문가 평가 또는 LLM을 판별기로 사용하는 방식으로 이루어지며, 정확하고 객관적인 기준점은 부족합니다. 본 연구에서는 화학 물질 조달 비용 추정이라는 실제적인 과제를 통해 이러한 간극을 메우고자 합니다. 이 과제에서 에이전트는 화학 물질의 식별, 공급업체 견적 검색, 유효한 구매 가능한 제품 선택, 수량 정규화, 그리고 반응 설명을 기반으로 한 비용 계산을 수행해야 합니다. 우리는 1,427개의 평가 가능한 반응으로 구성된 벤치마크인 ChemCost를 소개합니다. 이 벤치마크는 2,261개의 화학 물질과 230,775개의 공급업체 견적을 포함하는 고정된 가격 스냅샷을 기반으로 하며, 스칼라 점수 및 단계별 진단을 통해 데이터 기반(grounding), 검색, 조달 및 산술 오류를 분석할 수 있습니다. 또한, 견고성(robustness)을 평가하기 위해 화학 물질의 별칭, 수량 표현, 누락된 필드 및 입력 형식을 의도적으로 변경한 데이터를 생성했습니다. 최첨단, 공개 가중치 및 화학 특화 LLM 에이전트를 사용한 실험 결과, 도구 접근은 과제를 해결하는 데 필요하지만 충분하지 않다는 것을 알 수 있습니다. 가장 성능이 좋은 에이전트조차도 깨끗한 입력에서 50.6%의 정확도를 달성하는데 그치며, 실제적인 노이즈가 존재할 경우 성능이 크게 저하됩니다. 단계별 분석 결과, 오류는 불안정한 파싱, 비효과적인 증거 통합, 유효하지 않은 제품 선택, 그리고 수렴하지 않는 도구 사용으로 인해 발생한다는 것을 알 수 있습니다.
Large Language Models (LLMs) have become increasingly capable as tool-using agents, with benchmarks spanning diverse general agentic tasks. Yet rigorous evaluation of scientific tool use remains limited. In chemistry, recent agents can plan syntheses and invoke domain-specific tools, but evaluations often rely on curated demonstrations, expert assessment, or LLM-as-judge scoring rather than exact, judge-free ground truth. We address this gap with chemical procurement cost estimation, a practical task in which an agent must ground chemical identities, retrieve supplier quotes, select valid purchasable packs, normalize quantities, and compute cost from a reaction description. We introduce ChemCost, a benchmark of 1,427 evaluable reactions grounded to a frozen pricing snapshot covering 2,261 chemicals and 230,775 supplier quotes, supporting scalar scoring and stage-level diagnosis of grounding, retrieval, procurement, and arithmetic failures. To evaluate robustness, we further construct controlled noise-injected views that perturb chemical aliases, quantity expressions, missing fields, and input formatting. Experiments with frontier, open-weight, and chemistry-specialized LLM agents show that tool access is necessary but insufficient for solving the task. The strongest agents reach only 50.6% accuracy within 25% relative error on clean inputs and degrade substantially with realistic noise. Stage-level analysis further shows that failures arise from brittle parsing, ineffective evidence integration, invalid pack selection, and non-convergent tool use.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.