2602.11609v1 Feb 12, 2026 cs.AI

scPilot: 자동화된 단일 세포 분석 및 발견을 위한 대규모 언어 모델 추론

scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

Jefferson Chen
Jefferson Chen
Citations: 2
h-index: 1
Mark Antkowiak
Mark Antkowiak
Citations: 34
h-index: 2
Mengzhou Hu
Mengzhou Hu
Citations: 9
h-index: 2
Dexter Pratt
Dexter Pratt
Citations: 3
h-index: 1
Enze Ma
Enze Ma
Citations: 8
h-index: 2
Eric P. Xing
Eric P. Xing
Citations: 320
h-index: 7
Zhen Wang
Zhen Wang
Citations: 2
h-index: 1
Yiming Gao
Yiming Gao
Citations: 2
h-index: 1
Jieyuan Liu
Jieyuan Liu
Citations: 3
h-index: 1
Jun Kong
Jun Kong
Citations: 82
h-index: 5
Zhiting Hu
Zhiting Hu
Citations: 12
h-index: 2

우리는 오믹스 네이티브 추론(omics-native reasoning)을 실현하는 최초의 체계적 프레임워크인 scPilot을 소개한다. 이 프레임워크에서 대규모 언어 모델(LLM)은 단일 세포 RNA-seq 데이터와 온디맨드 생물정보학 도구를 직접 검토하며 자연어로 대화를 수행한다. scPilot은 세포 유형 주석(annotation), 발달 궤적 재구성, 전사 인자 표적화와 같은 핵심 단일 세포 분석 작업을 모델이 해결하고, 근거를 제시하며, 필요시 새로운 증거를 통해 수정해야 하는 단계별 추론 문제로 변환한다. 진척 상황을 측정하기 위해, 다양한 LLM에 대한 scPilot의 오믹스 네이티브 추론 능력을 충실히 평가할 수 있도록 전문가가 엄선한 9개의 데이터셋과 평가 도구로 구성된 scBench를 공개한다. o1 모델을 사용한 실험 결과, 반복적인 오믹스 네이티브 추론은 원샷(one-shot) 프롬프팅 대비 세포 유형 주석의 평균 정확도를 11% 향상시켰으며, Gemini-2.5-Pro는 궤적 그래프 편집 거리(trajectory graph-edit distance)를 30% 감소시켰다. 동시에 마커 유전자의 모호성과 조절 논리를 설명하는 투명한 추론 과정을 생성하였다. scPilot은 LLM을 원시(raw) 오믹스 데이터에 기반하게 함으로써, 검증 가능하고 해석 가능하며 진단적으로 유의미한 단일 세포 분석을 가능케 한다. 코드, 데이터 및 패키지는 https://github.com/maitrix-org/scPilot 에서 확인할 수 있다.

Original Abstract

We present scPilot, the first systematic framework to practice omics-native reasoning: a large language model (LLM) converses in natural language while directly inspecting single-cell RNA-seq data and on-demand bioinformatics tools. scPilot converts core single-cell analyses, i.e., cell-type annotation, developmental-trajectory reconstruction, and transcription-factor targeting, into step-by-step reasoning problems that the model must solve, justify, and, when needed, revise with new evidence. To measure progress, we release scBench, a suite of 9 expertly curated datasets and graders that faithfully evaluate the omics-native reasoning capability of scPilot w.r.t various LLMs. Experiments with o1 show that iterative omics-native reasoning lifts average accuracy by 11% for cell-type annotation and Gemini-2.5-Pro cuts trajectory graph-edit distance by 30% versus one-shot prompting, while generating transparent reasoning traces explain marker gene ambiguity and regulatory logic. By grounding LLMs in raw omics data, scPilot enables auditable, interpretable, and diagnostically informative single-cell analyses. Code, data, and package are available at https://github.com/maitrix-org/scPilot

2 Citations
0 Influential
30.431471805599 Altmetric
154.2 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!