QIME: 온톨로지 기반 질문을 활용한 해석 가능한 의료 텍스트 임베딩 구축
QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions
밀집된 생물 의학 임베딩은 뛰어난 성능을 보이지만, 그 '블랙박스'적인 특성으로 인해 임상 의사 결정에 활용하기 어렵습니다. 최근의 질문 기반 해석 가능한 임베딩 방법은 텍스트를 자연어 질문에 대한 이진 답변으로 표현하지만, 이러한 접근 방식은 종종 휴리스틱적이거나 표면적인 대비 신호에 의존하며, 전문적인 도메인 지식을 간과하는 경향이 있습니다. 본 논문에서는 각 차원이 임상적으로 의미 있는 예/아니오 질문에 해당하도록 하는 해석 가능한 의료 텍스트 임베딩을 구축하는 온톨로지 기반 프레임워크인 QIME을 제안합니다. QIME은 클러스터별 의료 개념 시그니처에 기반하여 의미적으로 원자적인 질문을 생성하며, 이를 통해 생물 의학 텍스트의 미세한 차이를 포착합니다. 또한, QIME은 각 질문에 대한 분류기 학습 없이 임베딩을 구축하는 훈련-불필요 전략을 지원하여 성능을 더욱 향상시킵니다. 생물 의학 의미 유사성, 클러스터링 및 검색 벤치마크 실험 결과, QIME은 기존의 해석 가능한 임베딩 방법보다 일관되게 우수한 성능을 보이며, 강력한 '블랙박스' 생물 의학 인코더와의 성능 격차를 크게 줄이는 동시에 간결하고 임상적으로 유용한 설명을 제공합니다.
While dense biomedical embeddings achieve strong performance, their black-box nature limits their utility in clinical decision-making. Recent question-based interpretable embeddings represent text as binary answers to natural-language questions, but these approaches often rely on heuristic or surface-level contrastive signals and overlook specialized domain knowledge. We propose QIME, an ontology-grounded framework for constructing interpretable medical text embeddings in which each dimension corresponds to a clinically meaningful yes/no question. By conditioning on cluster-specific medical concept signatures, QIME generates semantically atomic questions that capture fine-grained distinctions in biomedical text. Furthermore, QIME supports a training-free embedding construction strategy that eliminates per-question classifier training while further improving performance. Experiments across biomedical semantic similarity, clustering, and retrieval benchmarks show that QIME consistently outperforms prior interpretable embedding methods and substantially narrows the gap to strong black-box biomedical encoders, while providing concise and clinically informative explanations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.