NMRTrans: 실험적 NMR 스펙트럼을 이용한 구조 규명: 셋 트랜스포머 기반 접근 방식
NMRTrans: Structure Elucidation from Experimental NMR Spectra via Set Transformers
핵자기 공명(NMR) 분광법은 분자 구조 규명에 필수적이지만, 대규모 스펙트럼 해석은 여전히 많은 시간과 전문 지식을 필요로 합니다. 최근 스펙트럼-언어 모델링 및 검색 기반 방법이 유망한 결과를 보여주었지만, 이러한 방법은 계산된 스펙트럼의 대규모 데이터셋에 크게 의존하며, 실제 실험 데이터에 적용될 경우 성능이 현저히 저하되는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 화학 문헌에서 추출한 대규모의 실제 $^{1}$H 및 $^{13}$C 스펙트럼 데이터셋인 NMRSpec을 구축하고, 스펙트럼을 정렬되지 않은 피크 집합으로 모델링하고, NMR의 물리적 특성과 모델의 유도 편향을 일치시키는 NMRTrans를 제안합니다. 저희가 아는 한, NMRTrans는 대규모의 실제 스펙트럼 데이터만으로 학습된 최초의 NMR 트랜스포머이며, 실제 데이터 벤치마크에서 최첨단 성능을 달성했습니다. 특히, 가장 강력한 기준 모델 대비 Top-10 정확도를 +17.82 포인트 (61.15% vs. 43.33%) 향상시켜, 신뢰성 있는 NMR 구조 규명에 있어 실제 데이터와 구조 정보를 고려한 아키텍처의 중요성을 강조합니다.
Nuclear Magnetic Resonance (NMR) spectroscopy is fundamental for molecular structure elucidation, yet interpreting spectra at scale remains time-consuming and highly expertise-dependent. While recent spectrum-as-language modeling and retrieval-based methods have shown promise, they rely heavily on large corpora of computed spectra and exhibit notable performance drops when applied to experimental measurements. To address these issues, we build NMRSpec, a large-scale corpus of experimental $^1$H and $^{13}$C spectra mined from chemical literature, and propose NMRTrans, which models spectra as unordered peak sets and aligns the model's inductive bias with the physical nature of NMR. To our best knowledge, NMRTrans is the first NMR Transformer trained solely on large-scale experimental spectra and achieves state-of-the-art performance on experimental benchmarks, improving Top-10 Accuracy over the strongest baseline by +17.82 points (61.15% vs. 43.33%), and underscoring the importance of experimental data and structure-aware architectures for reliable NMR structure elucidation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.