MolRecBench-Wild: 실제 환경을 반영한 광학 화학 구조 인식 벤치마크
MolRecBench-Wild: A Real-World Benchmark for Optical Chemical Structure Recognition
광학 화학 구조 인식(OCSR)은 과학 문헌에 포함된 분자 다이어그램을 기계가 읽을 수 있는 형식으로 변환하는 것을 목표로 하지만, 현재 시스템은 상당한 시각적 복잡성과 화학적 의미론적 어려움으로 인해 실제 이미지에서 신뢰성이 떨어지는 경향이 있습니다. 본 연구에서는 분자 다이어그램에서 발생하는 시각적 간섭과 화학적 의미론적 과제를 동시에 설명하는 37개의 세분화된 레이블을 가진 이중 차원 난이도 프레임워크인 MOSAIC을 소개합니다. 이 프레임워크를 기반으로, 실제 출판물에서 관찰되는 전체 난이도 범위를 포괄하는 820개의 최신 화학 논문에서 추출한 5,029개의 구조로 구성된 벤치마크인 MolRecBench-Wild를 구축했습니다. SMILES 및 MolFile 외에 의미론적 평가의 정확성을 높이기 위해, 가전자 변동, 아이콘 기반 그룹 및 기타 표준이 아닌 화학 의미론을 표현할 수 있는 표현 언어인 CARBON을 제안합니다. 또한, 다양한 모델과의 호환성을 지원하기 위해 CARBON 및 SMILES 출력을 모두 지원하는 이중 트랙 평가 프로토콜을 채택했습니다. 18개의 OCSR 모델에 대한 종합적인 실험 결과는 MolRecBench-Wild에서 심각한 성능 저하를 보여주며, 이는 기존의 특허 벤치마크와 실제 학술 시나리오 간의 큰 격차를 드러냅니다.
Optical Chemical Structure Recognition (OCSR) aims to translate molecular diagrams in scientific literature into machine-readable formats, but current systems remain unreliable on real-world images due to substantial visual and chemical complexity. We introduce MOSAIC, a dual-dimensional difficulty framework with 37 fine-grained labels that jointly characterize visual interference and chemical semantic challenges in molecular diagrams. Based on this framework, we construct MolRecBench-Wild, a benchmark of 5,029 structures from 820 recent chemistry papers, covering the full difficulty spectrum observed in real publications. To enable faithful semantic evaluation beyond SMILES and MolFile, we propose CARBON, a representation language capable of expressing valence variations, icon-based groups, and other non-standard chemical semantics. We further adopt a dual-track evaluation protocol supporting both CARBON and SMILES outputs for broad model compatibility. Comprehensive experiments over 18 OCSR-capable models reveal severe performance degradation on MolRecBench-Wild, exposing a large gap between previous patent benchmarks and real-world academic scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.