중간 계층이 단일 세포 기반 모델에서 최적의 생물학적 표현을 인코딩한다
Intermediate Layers Encode Optimal Biological Representations in Single-Cell Foundation Models
현재 단일 세포 기반 모델 성능 평가에서는 일반적으로 최종 계층의 임베딩을 추출하며, 이는 최적의 특징 공간을 나타낸다고 가정합니다. 본 연구에서는 scFoundation (1억 개 파라미터) 및 Tahoe-X1 (13억 개 파라미터) 모델의 계층별 표현을 사용하여 경로 추론 및 교란 반응 예측 성능을 체계적으로 평가했습니다. 분석 결과, 최적의 계층은 작업에 따라 달라집니다 (경로 예측에서 최적 계층은 전체 깊이의 60% 지점에 위치하며, 이는 최종 계층보다 31% 깊은 곳에 있습니다) 그리고 세포 컨텍스트에 따라 달라집니다 (T 세포 활성화 상태에 따라 교란 반응의 최적 계층이 0~96%까지 변화합니다). 특히, 초기 계층의 임베딩은 정지 상태의 세포에서 모든 깊은 계층보다 우수한 성능을 보이며, 이는 계층적 특징 추상화에 대한 기존의 가정을 뒤집는 결과입니다. 이러한 결과는 모델이 학습하는 내용만큼 '어떤' 계층에서 특징을 추출하는지가 중요하다는 것을 보여주며, 따라서 생물학적 작업 및 세포 컨텍스트에 맞춰 체계적인 계층 평가가 필요하며, 단순히 최종 계층 임베딩을 사용하는 것을 지양해야 합니다.
Current single-cell foundation model benchmarks universally extract final layer embeddings, assuming these represent optimal feature spaces. We systematically evaluate layer-wise representations from scFoundation (100M parameters) and Tahoe-X1 (1.3B parameters) across trajectory inference and perturbation response prediction. Our analysis reveals that optimal layers are task-dependent (trajectory peaks at 60% depth, 31% above final layers) and context-dependent (perturbation optima shift 0-96% across T cell activation states). Notably, first-layer embeddings outperform all deeper layers in quiescent cells, challenging assumptions about hierarchical feature abstraction. These findings demonstrate that "where" to extract features matters as much as "what" the model learns, necessitating systematic layer evaluation tailored to biological task and cellular context rather than defaulting to final-layer embeddings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.