IOSVLM: 구강 스캔 데이터를 활용한 통합 치과 진단 시스템을 위한 3차원 시각-언어 모델
IOSVLM: A 3D Vision-Language Model for Unified Dental Diagnosis from Intraoral Scans
3차원 구강 스캔(IOS)은 풍부한 기하학적 정보를 제공하여 치과 진료에 점점 더 많이 활용되고 있으며, 여러 질병을 통합적으로 진단하는 것은 임상 기록 및 의사소통에 매우 중요합니다. 최근 연구에서는 2차원 이미지 또는 IOS에서 렌더링된 다중 뷰 이미지를 사용하여 통합 진단 및 보고서 생성을 가능하게 하는 치과 시각-언어 모델(VLM)이 개발되었지만, 이러한 모델은 원본 3차원 기하 정보를 충분히 활용하지 못합니다. 이러한 문제는 다음과 같은 이유로 중요하지만 동시에 어렵습니다. (i) 다양한 형태의 스캔 데이터와 복잡한 IOS 토폴로지, (ii) 질병 간의 복합 발생, 클래스 불균형 및 미세한 형태학적 모호성, (iii) 제한적인 3차원 IOS-텍스트 데이터 쌍. 따라서, 우리는 스캔 데이터를 포인트 클라우드로 표현하고 통합 진단 및 생성적 시각 질의응답(VQA)을 위한 3차원 인코더-프로젝터-LLM 구조를 갖춘 엔드-투-엔드 3차원 VLM인 IOSVLM을 제안합니다. 또한, 19,002건의 사례와 23가지 구강 질병 및 다양한 스캔 유형에 대한 249,055개의 VQA 쌍을 포함하는 대규모 다중 소스 IOS 진단 VQA 데이터셋인 IOSVQA를 함께 제공합니다. 색상 정보가 없는 IOS 데이터와 색상 의존적인 3차원 사전 학습 데이터 간의 분포 차이를 해결하기 위해, 우리는 미세한 기하학적 인식 및 교차 모드 정렬을 안정화하는 기하학-색상 프록시 방법을 제안합니다. 또한, 두 단계의 커리큘럼 학습 전략을 통해 모델의 강건성을 더욱 향상시켰습니다. IOSVLM은 강력한 기존 모델보다 우수한 성능을 보이며, 최소 +9.58%의 매크로 정확도 향상 및 +1.46%의 매크로 F1 점수 향상을 달성하여, IOS 기반 진단에 대한 직접적인 3차원 기하 모델링의 효과를 입증합니다.
3D intraoral scans (IOS) are increasingly adopted in routine dentistry due to abundant geometric evidence, and unified multi-disease diagnosis is desirable for clinical documentation and communication. While recent works introduce dental vision-language models (VLMs) to enable unified diagnosis and report generation on 2D images or multi-view images rendered from IOS, they do not fully leverage native 3D geometry. Such work is necessary and also challenging, due to: (i) heterogeneous scan forms and the complex IOS topology, (ii) multi-disease co-occurrence with class imbalance and fine-grained morphological ambiguity, (iii) limited paired 3D IOS-text data. Thus, we present IOSVLM, an end-to-end 3D VLM that represents scans as point clouds and follows a 3D encoder-projector-LLM design for unified diagnosis and generative visual question-answering (VQA), together with IOSVQA, a large-scale multi-source IOS diagnosis VQA dataset comprising 19,002 cases and 249,055 VQA pairs over 23 oral diseases and heterogeneous scan types. To address the distribution gap between color-free IOS data and color-dependent 3D pre-training, we propose a geometry-to-chromatic proxy that stabilizes fine-grained geometric perception and cross-modal alignment. A two-stage curriculum training strategy further enhances robustness. IOSVLM consistently outperforms strong baselines, achieving gains of at least +9.58% macro accuracy and +1.46% macro F1, indicating the effectiveness of direct 3D geometry modeling for IOS-based diagnosis.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.