SCALE: 가상 세포 교란 예측을 위한 확장 가능한 조건부 아틀라스 레벨 엔드포인트 전송
SCALE:Scalable Conditional Atlas-Level Endpoint transport for virtual cell perturbation prediction
가상 세포 모델은 단일 세포 측정으로부터 유전자, 화학 물질 또는 사이토카인 교란에 대한 세포 반응을 예측하여 인체 내 실험을 가능하게 하는 것을 목표로 합니다. 그러나 실제로는 대규모 교란 예측은 비효율적인 학습 및 추론 파이프라인, 고차원 희소 발현 공간에서의 불안정한 모델링, 그리고 재구성 유사 정확성을 지나치게 강조하고 생물학적 충실도를 과소평가하는 평가 프로토콜이라는 세 가지 주요 제약 조건으로 인해 어려움을 겪고 있습니다. 본 연구에서는 이러한 제한 사항을 종합적으로 해결하는 가상 세포 교란 예측을 위한 특수 대규모 기초 모델인 SCALE을 제시합니다. 첫째, 데이터 처리량, 분산 확장성 및 배포 효율성을 크게 향상시키는 BioNeMo 기반의 학습 및 추론 프레임워크를 구축하여 동일한 시스템 환경에서 사전 학습 시 12.51배, 추론 시 1.29배의 속도 향상을 달성했습니다. 둘째, 교란 예측을 조건부 전송 문제로 정의하고, LLaMA 기반의 세포 인코딩과 엔드포인트 지향적 감독을 결합한 세트 인식 플로우 아키텍처를 통해 구현하여 더욱 안정적인 학습과 교란 효과의 강력한 복원을 가능하게 했습니다. 셋째, 재구성에만 의존하는 것이 아니라 생물학적으로 의미 있는 지표를 중심으로 한 엄격한 세포 수준 프로토콜을 사용하여 Tahoe-100M 데이터셋에서 모델을 평가했습니다. 이 벤치마크에서 본 모델은 PDCorr을 12.02% 향상시키고 DE Overlap을 10.66% 향상시켜 STATE 모델보다 우수한 성능을 보였습니다. 이러한 결과는 가상 세포 기술의 발전을 위해서는 더 나은 생성 목표뿐만 아니라 확장 가능한 인프라, 안정적인 전송 모델링, 그리고 생물학적으로 충실한 평가를 공동으로 설계해야 함을 시사합니다.
Virtual cell models aim to enable in silico experimentation by predicting how cells respond to genetic, chemical, or cytokine perturbations from single-cell measurements. In practice, however, large-scale perturbation prediction remains constrained by three coupled bottlenecks: inefficient training and inference pipelines, unstable modeling in high-dimensional sparse expression space, and evaluation protocols that overemphasize reconstruction-like accuracy while underestimating biological fidelity. In this work we present a specialized large-scale foundation model SCALE for virtual cell perturbation prediction that addresses the above limitations jointly. First, we build a BioNeMo-based training and inference framework that substantially improves data throughput, distributed scalability, and deployment efficiency, yielding 12.51* speedup on pretrain and 1.29* on inference over the prior SOTA pipeline under matched system settings. Second, we formulate perturbation prediction as conditional transport and implement it with a set-aware flow architecture that couples LLaMA-based cellular encoding with endpoint-oriented supervision. This design yields more stable training and stronger recovery of perturbation effects. Third, we evaluate the model on Tahoe-100M using a rigorous cell-level protocol centered on biologically meaningful metrics rather than reconstruction alone. On this benchmark, our model improves PDCorr by 12.02% and DE Overlap by 10.66% over STATE. Together, these results suggest that advancing virtual cells requires not only better generative objectives, but also the co-design of scalable infrastructure, stable transport modeling, and biologically faithful evaluation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.