2604.16586v1 Apr 17, 2026 cs.LG

기초 모델 시대의 분자 특성 예측을 위한 딥러닝의 체계적인 조사 및 벤치마크

A Systematic Survey and Benchmark of Deep Learning for Molecular Property Prediction in the Foundation Model Era

Kwok-Yan Lam
Kwok-Yan Lam
Citations: 65
h-index: 2
Xingsheng Chen
Xingsheng Chen
Citations: 8
h-index: 1
Regina Zhang
Regina Zhang
Citations: 8
h-index: 1
P. Lio
P. Lio
Citations: 22
h-index: 3
S. Yiu
S. Yiu
Citations: 419
h-index: 7
Zongru Li
Zongru Li
Citations: 47
h-index: 3
Honggang Wen
Honggang Wen
Citations: 28
h-index: 4
Ming Li
Ming Li
Citations: 43
h-index: 3
Xiaojin Zhang
Xiaojin Zhang
Citations: 147
h-index: 3
Qiang Yang
Qiang Yang
Citations: 162
h-index: 8
Hongzhi Yin
Hongzhi Yin
Citations: 68
h-index: 5

분자 특성 예측은 양자 화학, 컴퓨터 화학, 그리고 딥러닝을 통합하여 분자 구조와 물리화학적 및 생물학적 특성을 연결하는 분야입니다. 본 연구는 양자 기반 방법, 특징 기반 머신러닝, 기하학적 딥러닝, 그리고 기초 모델을 포함한 네 가지 상호 보완적인 패러다임을 분석하고, 분자 표현, 모델 구조, 그리고 융합 응용 분야를 연결하는 통합 체계를 제시합니다. 벤치마크 분석은 널리 사용되는 데이터셋뿐만 아니라 산업적 관점을 반영하는 데이터셋을 모두 활용하여 양자, 물리화학, 생리학, 그리고 생물리학 분야의 데이터를 포함합니다. 본 연구는 데이터 큐레이션, 데이터 분할 전략, 그리고 평가 프로토콜에 대한 현재 표준을 검토하고, 일관성 없는 입체화학, 이질적인 실험 데이터 출처, 그리고 임의적이거나 정의되지 않은 분할 조건 하에서의 재현성 제한과 같은 과제를 강조합니다. 이러한 관찰 결과는 더 투명하고, 시간 및 골격 구조를 고려하는 벤치마크 설계로의 현대화를 촉진합니다. 또한, 본 연구는 다음과 같은 세 가지 미래 지향적인 방향을 제시합니다: (i) 양자 일관성을 고려하는 물리 기반 학습 임베딩, (ii) 신뢰할 수 있는 추론을 위한 불확실성 보정된 기초 모델, 그리고 (iii) 계산 및 실험 데이터를 통합하는 현실적인 멀티모달 벤치마크 생태계. 저장소: https://github.com/Zongru-Li/Survey-and-Benchmarks-of-DL-for-Molecular-Property-Prediction-in-the-Foundation-Model-Era.

Original Abstract

Molecular property prediction integrates quantum chemistry, cheminformatics, and deep learning to connect molecular structure with physicochemical and biological behavior. This survey traces four complementary paradigms, including Quantum, Descriptor Machine Learning, Geometric Deep Learning, and Foundation Models, and outlines a unified taxonomy linking molecular representations, model architectures, and interdisciplinary applications. Benchmark analyses integrate evidence from both widely used datasets and datasets reflecting industry perspectives, encompassing quantum, physicochemical, physiological, and biophysical domains. The survey examines current standards in data curation, splitting strategies, and evaluation protocols, highlighting challenges including inconsistent stereochemistry, heterogeneous assay sources, and reproducibility limitations under random or poorly defined splits. These observations motivate the modernization of benchmark design toward more transparent, time- and scaffold-aware methodologies. We further propose three forward-looking directions: (i) physics-aware learning embedding quantum consistency, (ii) uncertainty-calibrated foundation models for trustworthy inference, and (iii) realistic multimodal benchmark ecosystems integrating computational and experimental data. Repository: https://github.com/Zongru-Li/Survey-and-Benchmarks-of-DL-for-Molecular-Property-Prediction-in-the-Foundation-Model-Era.

0 Citations
0 Influential
33.729550745277 Altmetric
168.6 Score
Original PDF
6

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!