2602.03477v1 Feb 03, 2026 cs.LG

ScDiVa: 마스크 기반 이산 확산을 이용한 단일 세포의 식별 및 발현 동시 모델링

ScDiVa: Masked Discrete Diffusion for Joint Modeling of Single-Cell Identity and Expression

Mingxuan Wang
Mingxuan Wang
Citations: 21
h-index: 2
Cheng Chen
Cheng Chen
Citations: 32
h-index: 3
Gaoyang Jiang
Gaoyang Jiang
Citations: 42
h-index: 3
Zi-Lin Ren
Zi-Lin Ren
Citations: 97
h-index: 3
Chuangxin Zhao
Chuangxin Zhao
Citations: 10
h-index: 3
Lu Shi
Lu Shi
Citations: 6
h-index: 2
Yanbiao Ma
Yanbiao Ma
Citations: 6
h-index: 1

단일 세포 RNA 시퀀싱 데이터는 고차원적이고 희소하며 순서가 불분명하여, 자기회귀적 생성 방식은 인공적인 순서 편향을 초래하고 오류 누적 문제를 야기합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 토큰 공간에서 연속 시간의 마스킹 메커니즘을 정의하여 생성 과정을 드롭아웃과 유사한 손상 과정에 맞추는 마스크 기반 이산 확산 기초 모델인 scDiVa를 제안합니다. scDiVa는 이산적인 유전자 식별과 연속적인 값을 동시에 모델링하는 양방향 디노이저를 특징으로 하며, 엔트로피 정규화된 직렬화 및 잠재적인 앵커 토큰을 사용하여 정보 효율성을 극대화하고 전반적인 세포 식별을 유지합니다. 본 모델은 깊이 불변 시간 샘플링과 이중 디노이징 목적 함수를 통해 다양한 희소성 수준을 시뮬레이션하면서 식별 및 크기 값을 정확하게 복원하도록 학습됩니다. 5900만 개의 세포로 사전 학습된 scDiVa는 배치 통합, 세포 유형 주석, 교란 반응 예측 등 주요 벤치마크에서 뛰어난 성능을 보입니다. 이러한 결과는 마스크 기반 이산 확산이 생물학적으로 일관되고 효과적인 자기회귀 방식의 대안이 될 수 있음을 시사합니다.

Original Abstract

Single-cell RNA-seq profiles are high-dimensional, sparse, and unordered, causing autoregressive generation to impose an artificial ordering bias and suffer from error accumulation. To address this, we propose scDiVa, a masked discrete diffusion foundation model that aligns generation with the dropout-like corruption process by defining a continuous-time forward masking mechanism in token space. ScDiVa features a bidirectional denoiser that jointly models discrete gene identities and continuous values, utilizing entropy-normalized serialization and a latent anchor token to maximize information efficiency and preserve global cell identity. The model is trained via depth-invariant time sampling and a dual denoising objective to simulate varying sparsity levels while ensuring precise recovery of both identity and magnitude. Pre-trained on 59 million cells, scDiVa achieves strong transfer performance across major benchmarks, including batch integration, cell type annotation, and perturbation response prediction. These results suggest that masked discrete diffusion serves as a biologically coherent and effective alternative to autoregression.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!