SC-Arena: 지식 증강 평가를 통한 단일 세포 추론을 위한 자연어 벤치마크
SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation
대규모 언어 모델(LLM)은 과학 연구에 점점 더 많이 활용되어 지식 발견 및 추론에 새로운 가능성을 제공합니다. 그러나 단일 세포 생물학 분야에서 일반 및 특수 LLM에 대한 평가 방식은 여전히 부족합니다. 기존 벤치마크는 작업별로 분산되어 있으며, 객관식 분류와 같이 실제 사용 방식과 다른 형식을 채택하고 있으며, 해석 가능성과 생물학적 근거가 부족한 지표에 의존합니다. 본 연구에서는 단일 세포 기반 모델에 특화된 자연어 평가 프레임워크인 SC-ARENA를 제시합니다. SC-ARENA는 내부 속성과 유전자 수준의 상호 작용을 모두 나타내는 가상 세포 추상화를 통해 평가 목표를 통합합니다. 이러한 프레임워크 내에서, 우리는 세포 유형 분류, 캡션 생성, 텍스트 생성, 변동 예측, 과학 질의응답 등 핵심적인 세포 생물학적 추론 능력을 평가하는 5가지 자연어 기반 작업을 정의했습니다. 기존의 취약한 문자열 매칭 지표의 한계를 극복하기 위해, 우리는 외부 온톨로지, 마커 데이터베이스 및 과학 문헌을 통합하여 생물학적으로 정확하고 해석 가능한 판단을 지원하는 지식 증강 평가 방식을 도입했습니다. 일반적인 용도 및 특정 분야에 특화된 LLM에 대한 실험 및 분석 결과, (i) 가상 세포를 활용한 통합 평가 방식 하에서 현재 모델들은 생물학적으로 복잡한 작업, 특히 메커니즘적 또는 인과적 이해를 요구하는 작업에서 성능 편차가 심각하게 나타나며, (ii) 우리의 지식 증강 평가 프레임워크는 생물학적 정확성을 보장하고, 해석 가능한 근거를 제공하며, 기존 지표의 취약성과 불투명성을 극복하여 높은 판별력을 달성한다는 것을 확인했습니다. 따라서 SC-Arena는 단일 세포 생물학 분야에서 LLM을 평가하기 위한 통합적이고 해석 가능한 프레임워크를 제공하며, 생물학적 지향적이고 일반화 가능한 기반 모델 개발에 기여할 수 있습니다.
Large language models (LLMs) are increasingly applied in scientific research, offering new capabilities for knowledge discovery and reasoning. In single-cell biology, however, evaluation practices for both general and specialized LLMs remain inadequate: existing benchmarks are fragmented across tasks, adopt formats such as multiple-choice classification that diverge from real-world usage, and rely on metrics lacking interpretability and biological grounding. We present SC-ARENA, a natural language evaluation framework tailored to single-cell foundation models. SC-ARENA formalizes a virtual cell abstraction that unifies evaluation targets by representing both intrinsic attributes and gene-level interactions. Within this paradigm, we define five natural language tasks (cell type annotation, captioning, generation, perturbation prediction, and scientific QA) that probe core reasoning capabilities in cellular biology. To overcome the limitations of brittle string-matching metrics, we introduce knowledge-augmented evaluation, which incorporates external ontologies, marker databases, and scientific literature to support biologically faithful and interpretable judgments. Experiments and analysis across both general-purpose and domain-specialized LLMs demonstrate that (i) under the Virtual Cell unified evaluation paradigm, current models achieve uneven performance on biologically complex tasks, particularly those demanding mechanistic or causal understanding; and (ii) our knowledge-augmented evaluation framework ensures biological correctness, provides interpretable, evidence-grounded rationales, and achieves high discriminative capacity, overcoming the brittleness and opacity of conventional metrics. SC-Arena thus provides a unified and interpretable framework for assessing LLMs in single-cell biology, pointing toward the development of biology-aligned, generalizable foundation models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.