MolecularIQ: 분자 그래프 상의 기호 검증을 통한 화학적 추론 능력 분석
MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs
분자의 특성은 기본적으로 분자 그래프에 암호화된 그 구성과 구조에 의해 결정됩니다. 따라서 분자 특성에 대한 추론은 분자 그래프를 파싱하고 이해하는 능력을 필요로 합니다. 대규모 언어 모델(LLM)은 화학 분야에서 점점 더 많이 활용되고 있으며, 분자 명칭 변환, 캡셔닝, 텍스트 기반 생성, 그리고 특성 또는 반응 예측과 같은 작업을 수행합니다. 대부분의 기존 벤치마크는 일반적인 화학 지식을 강조하거나, 정보 유출 또는 편향의 위험이 있는 문헌 또는 대체 레이블에 의존하거나, 평가를 객관식 질문으로 축소합니다. 본 논문에서는 기호적으로 검증 가능한 작업에만 초점을 맞춘 분자 구조 추론 벤치마크인 MolecularIQ를 소개합니다. MolecularIQ는 분자 그래프에 대한 세밀한 추론 평가를 가능하게 하며, 모델의 실패가 특정 작업 및 분자 구조에 국한되는 패턴을 드러냅니다. 이를 통해 현재 화학 LLM의 강점과 한계에 대한 실질적인 통찰력을 제공하고, 분자 구조에 대해 정확하게 추론할 수 있는 모델 개발을 위한 지침을 제시합니다.
A molecule's properties are fundamentally determined by its composition and structure encoded in its molecular graph. Thus, reasoning about molecular properties requires the ability to parse and understand the molecular graph. Large Language Models (LLMs) are increasingly applied to chemistry, tackling tasks such as molecular name conversion, captioning, text-guided generation, and property or reaction prediction. Most existing benchmarks emphasize general chemical knowledge, rely on literature or surrogate labels that risk leakage or bias, or reduce evaluation to multiple-choice questions. We introduce MolecularIQ, a molecular structure reasoning benchmark focused exclusively on symbolically verifiable tasks. MolecularIQ enables fine-grained evaluation of reasoning over molecular graphs and reveals capability patterns that localize model failures to specific tasks and molecular structures. This provides actionable insights into the strengths and limitations of current chemistry LLMs and guides the development of models that reason faithfully over molecular structure.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.