기초 모델 시대의 분자 특성 예측을 위한 딥러닝의 체계적인 조사 및 벤치마크
A Systematic Survey and Benchmark of Deep Learning for Molecular Property Prediction in the Foundation Model Era
분자 특성 예측은 양자 화학, 컴퓨터 화학, 그리고 딥러닝을 통합하여 분자 구조와 물리화학적 및 생물학적 특성을 연결하는 분야입니다. 본 연구는 양자 기반 방법, 특징 기반 머신러닝, 기하학적 딥러닝, 그리고 기초 모델을 포함한 네 가지 상호 보완적인 패러다임을 분석하고, 분자 표현, 모델 구조, 그리고 융합 응용 분야를 연결하는 통합 체계를 제시합니다. 벤치마크 분석은 널리 사용되는 데이터셋뿐만 아니라 산업적 관점을 반영하는 데이터셋을 모두 활용하여 양자, 물리화학, 생리학, 그리고 생물리학 분야의 데이터를 포함합니다. 본 연구는 데이터 큐레이션, 데이터 분할 전략, 그리고 평가 프로토콜에 대한 현재 표준을 검토하고, 일관성 없는 입체화학, 이질적인 실험 데이터 출처, 그리고 임의적이거나 정의되지 않은 분할 조건 하에서의 재현성 제한과 같은 과제를 강조합니다. 이러한 관찰 결과는 더 투명하고, 시간 및 골격 구조를 고려하는 벤치마크 설계로의 현대화를 촉진합니다. 또한, 본 연구는 다음과 같은 세 가지 미래 지향적인 방향을 제시합니다: (i) 양자 일관성을 고려하는 물리 기반 학습 임베딩, (ii) 신뢰할 수 있는 추론을 위한 불확실성 보정된 기초 모델, 그리고 (iii) 계산 및 실험 데이터를 통합하는 현실적인 멀티모달 벤치마크 생태계. 저장소: https://github.com/Zongru-Li/Survey-and-Benchmarks-of-DL-for-Molecular-Property-Prediction-in-the-Foundation-Model-Era.
Molecular property prediction integrates quantum chemistry, cheminformatics, and deep learning to connect molecular structure with physicochemical and biological behavior. This survey traces four complementary paradigms, including Quantum, Descriptor Machine Learning, Geometric Deep Learning, and Foundation Models, and outlines a unified taxonomy linking molecular representations, model architectures, and interdisciplinary applications. Benchmark analyses integrate evidence from both widely used datasets and datasets reflecting industry perspectives, encompassing quantum, physicochemical, physiological, and biophysical domains. The survey examines current standards in data curation, splitting strategies, and evaluation protocols, highlighting challenges including inconsistent stereochemistry, heterogeneous assay sources, and reproducibility limitations under random or poorly defined splits. These observations motivate the modernization of benchmark design toward more transparent, time- and scaffold-aware methodologies. We further propose three forward-looking directions: (i) physics-aware learning embedding quantum consistency, (ii) uncertainty-calibrated foundation models for trustworthy inference, and (iii) realistic multimodal benchmark ecosystems integrating computational and experimental data. Repository: https://github.com/Zongru-Li/Survey-and-Benchmarks-of-DL-for-Molecular-Property-Prediction-in-the-Foundation-Model-Era.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.