OptimusKG: 현대적인 다중 모드 그래프를 활용한 생물 의학 지식 통합
OptimusKG: Unifying biomedical knowledge in a modern multimodal graph
생물 의학 지식 그래프(KG)는 생명 과학 분야에서 널리 사용되지만, 많은 그래프가 비정형 문서에서 파생되어 스키마 수준의 제약이 부족하거나, 구조화된 자원에서 구축된 그래프는 통합된 표현으로 조화하기 어렵다는 문제가 있습니다. 본 연구에서는 구조화 및 반정형 자원에서 구축된 다중 모드 생물 의학 레이블 속성 그래프(LPG)인 OptimusKG를 제안합니다. OptimusKG는 분자, 해부학, 임상 및 환경 도메인 전반에 걸쳐 사실 기반의, 유형별 메타데이터를 보존합니다. OptimusKG는 10개의 개체 유형에 걸쳐 190,531개의 노드, 26개의 관계 유형에 걸쳐 21,813,816개의 엣지, 그리고 150개의 고유한 속성 키에 대한 110,276,843개의 값을 포함하는 67,249,863개의 속성 인스턴스를 포함하며, 이는 18개의 온톨로지와 제어 어휘에서 파생되었습니다. 이 그래프는 노드와 엣지에 대한 최상위 스키마를 적용하고, 분자, 해부학, 임상 및 환경 도메인 전반에 걸쳐 세분화된 유형별 속성, 상호 참조 및 출처 정보를 유지합니다. 멀티모달 에이전트인 PaperQA3를 사용하여 과학 문헌에서 추출된 증거를 기반으로 OptimusKG의 유효성을 평가한 결과, 샘플링된 엣지의 70.0%가 증거에 의해 뒷받침되었으며, 샘플링된 잘못된 엣지의 83.4%는 증거를 제공하지 않았습니다. 문헌적 지원이 없는 엣지는 주로 실험 및 기능 유전체 자원에서 파생된 연관성에 집중되어 있으며, 이는 OptimusKG가 과학 문헌에 통합되기 전에 존재하는 생물 의학 지식을 포착할 수 있음을 시사합니다. OptimusKG는 Apache Parquet 파일 형식으로 배포되어 그래프 기반 머신 러닝, 대규모 언어 모델을 활용한 지식 기반 검색 및 가설 생성과 같은 생물 의학 연구 활용을 위한 표준화된 리소스를 제공합니다.
Biomedical knowledge graphs (KGs) are widely used in the life sciences, yet many are derived from unstructured documents and therefore lack schema-level constrains, whereas graphs assembled from structured resources are difficult to harmonize into a unified representation. We present OptimusKG, a multimodal biomedical labeled property graph (LPG) built from structured and semi-structured resources to preserve factual, type-specific metadata across molecular, anatomical, clinical, and environmental domains. OptimusKG contains 190,531 nodes across 10 entity types, 21,813,816 edges across 26 relation types, and 67,249,863 property instances encoding 110,276,843 values across 150 distinct property keys, derived from 18 ontologies and controlled vocabularies. The graph enforces a top-level schema for nodes and edges and retains granular, type-specific properties, cross-references, and provenance across molecular, anatomical, clinical, and environmental domains. We assessed the validity of OptimusKG by evaluating whether graph relationships are supported by evidence from the scientific literature using a multimodal agent, PaperQA3. PaperQA3 identified supporting evidence for 70.0% of sampled edges, whereas 83.4% of sampled false edges received no supporting evidence. Edges without literature support were concentrated in associations derived from experimental and functional genomics resources, suggesting that OptimusKG captures biomedical knowledge that may precede synthesis in the scientific literature. OptimusKG is distributed as Apache Parquet files, providing a standardized resource for graph-based machine learning, knowledge-grounded retrieval with large language models, and biomedical discovery use cases such as hypothesis generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.