2601.12805v2 Jan 19, 2026 q-bio.GN

SciHorizon-GENE: 유전자 지식을 활용한 생명과학 분야 추론을 위한 LLM 성능 평가 – 기능 이해까지

SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding

Chuan Qin
Chuan Qin
Citations: 21
h-index: 2
Qingqing Long
Qingqing Long
Citations: 395
h-index: 8
Yuanchun Zhou
Yuanchun Zhou
Citations: 505
h-index: 9
Hengshu Zhu
Hengshu Zhu
Citations: 6
h-index: 1
Xiaohan Huang
Xiaohan Huang
Citations: 18
h-index: 3
Meng Xiao
Meng Xiao
Citations: 247
h-index: 5
Jinmiao Chen
Jinmiao Chen
Citations: 6
h-index: 1

대규모 언어 모델(LLM)은 생의학 연구, 특히 지식 기반 해석 작업에서 점점 더 큰 잠재력을 보여주고 있습니다. 그러나 LLM이 유전자 수준의 지식을 기반으로 기능적 이해에 이르기까지 신뢰성 있는 추론을 수행하는 능력, 즉 지식 기반 세포 지도 해석의 핵심 요구 사항은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해소하기 위해, 당사는 신뢰할 수 있는 생물학 데이터베이스에서 구축된 대규모 유전자 중심 벤치마크인 SciHorizon-GENE를 소개합니다. 이 벤치마크는 19만 개 이상의 인간 유전에 대한 선별된 지식을 통합하며, 세포 유형 분류, 기능 해석 및 메커니즘 중심 분석과 관련된 다양한 유전자-기능 추론 시나리오를 포괄하는 54만 개 이상의 질문으로 구성됩니다. SciHorizon-GENE는 예비 검사에서 관찰된 행동 패턴에 따라 LLM을 평가하며, 생물학적으로 중요한 네 가지 관점, 즉 연구 관심 민감도, 환각 경향, 답변 완전성 및 문헌 영향력을 명시적으로 평가하여 생물학적 해석 파이프라인에서 LLM의 안전한 사용을 제한하는 실패 모드에 초점을 맞춥니다. 당사는 최첨단 범용 및 생의학 LLM을 광범위하게 체계적으로 평가하여 유전자 수준의 추론 능력에 상당한 이질성이 존재하며, 정확하고 완전하며 문헌에 기반한 기능적 해석을 생성하는 데 지속적인 어려움이 있음을 확인했습니다. 본 벤치마크는 유전자 수준에서 LLM의 행동을 분석하기 위한 체계적인 기반을 제공하며, 모델 선택 및 개발에 대한 통찰력을 제공하여 지식 기반 생물학적 해석에 직접적인 관련성을 갖습니다.

Original Abstract

Large language models (LLMs) have shown growing promise in biomedical research, particularly for knowledge-driven interpretation tasks. However, their ability to reliably reason from gene-level knowledge to functional understanding, a core requirement for knowledge-enhanced cell atlas interpretation, remains largely underexplored. To address this gap, we introduce SciHorizon-GENE, a large-scale gene-centric benchmark constructed from authoritative biological databases. The benchmark integrates curated knowledge for over 190K human genes and comprises more than 540K questions covering diverse gene-to-function reasoning scenarios relevant to cell type annotation, functional interpretation, and mechanism-oriented analysis. Motivated by behavioral patterns observed in preliminary examinations, SciHorizon-GENE evaluates LLMs along four biologically critical perspectives: research attention sensitivity, hallucination tendency, answer completeness, and literature influence, explicitly targeting failure modes that limit the safe adoption of LLMs in biological interpretation pipelines. We systematically evaluate a wide range of state-of-the-art general-purpose and biomedical LLMs, revealing substantial heterogeneity in gene-level reasoning capabilities and persistent challenges in generating faithful, complete, and literature-grounded functional interpretations. Our benchmark establishes a systematic foundation for analyzing LLM behavior at the gene scale and offers insights for model selection and development, with direct relevance to knowledge-enhanced biological interpretation.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!