Suiren-1.0 기술 보고서: 분자 기반 모델 패밀리
Suiren-1.0 Technical Report: A Family of Molecular Foundation Models
본 논문에서는 다양한 유기 시스템의 정확한 모델링을 위한 분자 기반 모델 패밀리인 Suiren-1.0을 소개합니다. Suiren-1.0은 세 가지 특화된 모델(Suiren-Base, Suiren-Dimer, Suiren-ConfAvg)로 구성되어 있으며, 3차원 구조 정보와 2차원 통계적 분포 사이의 간극을 해소하는 알고리즘 프레임워크 내에 통합되어 있습니다. 먼저, Suiren-Base 모델(18억 개의 파라미터)을 공간적 자기 지도 학습과 SE(3) 등변 아키텍처를 사용하여 7천만 개의 밀도 함수 이론 데이터셋으로 사전 훈련하여 양자 특성 예측에서 뛰어난 성능을 달성했습니다. Suiren-Dimer 모델은 1350만 개의 분자 간 상호 작용 샘플을 사용하여 사전 훈련을 추가하여 이러한 기능을 확장합니다. 효율적인 후속 응용을 위해, 복잡한 3차원 구조 표현을 2차원 구조 평균 표현으로 변환하는 확산 기반 프레임워크인 Conformation Compression Distillation (CCD)을 제안합니다. 이를 통해 경량화된 Suiren-ConfAvg 모델이 개발되었으며, 이 모델은 SMILES 문자열 또는 분자 그래프로부터 고품질의 표현을 생성합니다. 광범위한 평가 결과, Suiren-1.0이 다양한 작업에서 최첨단 결과를 달성함을 보여줍니다. 모든 모델과 벤치마크는 공개 소스로 제공됩니다.
We introduce Suiren-1.0, a family of molecular foundation models for the accurate modeling of diverse organic systems. Suiren-1.0 comprising three specialized variants (Suiren-Base, Suiren-Dimer, and Suiren-ConfAvg) is integrated within an algorithmic framework that bridges the gap between 3D conformational geometry and 2D statistical ensemble spaces. We first pre-train Suiren-Base (1.8B parameters) on a 70M-sample Density Functional Theory dataset using spatial self-supervision and SE(3)-equivariant architectures, achieving robust performance in quantum property prediction. Suiren-Dimer extends this capability through continued pre-training on 13.5M intermolecular interaction samples. To enable efficient downstream application, we propose Conformation Compression Distillation (CCD), a diffusion-based framework that distills complex 3D structural representations into 2D conformation-averaged representations. This yields the lightweight Suiren-ConfAvg, which generates high-fidelity representations from SMILES or molecular graphs. Our extensive evaluations demonstrate that Suiren-1.0 establishes state-of-the-art results across a range of tasks. All models and benchmarks are open-sourced.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.