SciHorizon-GENE: 유전자 지식을 활용한 생명과학 분야 추론을 위한 LLM 성능 평가 – 기능 이해까지
SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding
대규모 언어 모델(LLM)은 생의학 연구, 특히 지식 기반 해석 작업에서 점점 더 큰 잠재력을 보여주고 있습니다. 그러나 LLM이 유전자 수준의 지식을 기반으로 기능적 이해에 이르기까지 신뢰성 있는 추론을 수행하는 능력, 즉 지식 기반 세포 지도 해석의 핵심 요구 사항은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해소하기 위해, 당사는 신뢰할 수 있는 생물학 데이터베이스에서 구축된 대규모 유전자 중심 벤치마크인 SciHorizon-GENE를 소개합니다. 이 벤치마크는 19만 개 이상의 인간 유전에 대한 선별된 지식을 통합하며, 세포 유형 분류, 기능 해석 및 메커니즘 중심 분석과 관련된 다양한 유전자-기능 추론 시나리오를 포괄하는 54만 개 이상의 질문으로 구성됩니다. SciHorizon-GENE는 예비 검사에서 관찰된 행동 패턴에 따라 LLM을 평가하며, 생물학적으로 중요한 네 가지 관점, 즉 연구 관심 민감도, 환각 경향, 답변 완전성 및 문헌 영향력을 명시적으로 평가하여 생물학적 해석 파이프라인에서 LLM의 안전한 사용을 제한하는 실패 모드에 초점을 맞춥니다. 당사는 최첨단 범용 및 생의학 LLM을 광범위하게 체계적으로 평가하여 유전자 수준의 추론 능력에 상당한 이질성이 존재하며, 정확하고 완전하며 문헌에 기반한 기능적 해석을 생성하는 데 지속적인 어려움이 있음을 확인했습니다. 본 벤치마크는 유전자 수준에서 LLM의 행동을 분석하기 위한 체계적인 기반을 제공하며, 모델 선택 및 개발에 대한 통찰력을 제공하여 지식 기반 생물학적 해석에 직접적인 관련성을 갖습니다.
Large language models (LLMs) have shown growing promise in biomedical research, particularly for knowledge-driven interpretation tasks. However, their ability to reliably reason from gene-level knowledge to functional understanding, a core requirement for knowledge-enhanced cell atlas interpretation, remains largely underexplored. To address this gap, we introduce SciHorizon-GENE, a large-scale gene-centric benchmark constructed from authoritative biological databases. The benchmark integrates curated knowledge for over 190K human genes and comprises more than 540K questions covering diverse gene-to-function reasoning scenarios relevant to cell type annotation, functional interpretation, and mechanism-oriented analysis. Motivated by behavioral patterns observed in preliminary examinations, SciHorizon-GENE evaluates LLMs along four biologically critical perspectives: research attention sensitivity, hallucination tendency, answer completeness, and literature influence, explicitly targeting failure modes that limit the safe adoption of LLMs in biological interpretation pipelines. We systematically evaluate a wide range of state-of-the-art general-purpose and biomedical LLMs, revealing substantial heterogeneity in gene-level reasoning capabilities and persistent challenges in generating faithful, complete, and literature-grounded functional interpretations. Our benchmark establishes a systematic foundation for analyzing LLM behavior at the gene scale and offers insights for model selection and development, with direct relevance to knowledge-enhanced biological interpretation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.