프로젝트 Imaging-X: 기초 모델 개발을 위한 1000개 이상의 공개 의료 영상 데이터셋에 대한 조사
Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development
기초 모델은 다양한 분야와 작업에서 놀라운 성공을 거두었으며, 이는 주로 대규모, 다양하고 고품질 데이터셋의 발전에 힘입은 결과입니다. 그러나 의료 영상 분야에서는 임상 전문 지식에 대한 의존성과 엄격한 윤리적 및 개인 정보 보호 제약으로 인해 이러한 의료 데이터셋을 큐레이션하고 조립하는 것이 매우 어렵습니다. 이는 대규모의 통합된 의료 데이터셋의 부족으로 이어져 강력한 의료 기초 모델 개발을 저해합니다. 본 연구에서는 지금까지 가장 큰 규모의 의료 영상 데이터셋 조사 결과를 제시하며, 1000개 이상의 공개 데이터셋을 체계적으로 분류하여 각 데이터셋의 모달리티, 작업, 해부학적 부위, 어노테이션, 제한 사항 및 통합 가능성을 상세히 기술합니다. 분석 결과, 현재의 의료 영상 데이터셋은 규모가 작고, 특정 작업에 한정되어 있으며, 장기와 모달리티에 따라 불균등하게 분포되어 있어, 다재다능하고 강력한 의료 기초 모델을 개발하는 데 한계가 있음을 보여줍니다. 이러한 단편화를 극복하고 규모를 확대하기 위해, 우리는 공통 모달리티 또는 작업을 공유하는 공개 데이터셋을 통합하는 메타데이터 기반 융합 패러다임(MDFP)을 제안합니다. MDFP를 기반으로, 우리는 엔드투엔드 자동 의료 영상 데이터셋 통합을 가능하게 하는 대화형 검색 포털을 출시하고, 조사된 모든 데이터셋을 통합된 구조화된 테이블로 정리하여 주요 특징을 명확하게 요약하고 참조 링크를 제공함으로써, 커뮤니티에 접근 가능하고 포괄적인 저장소를 제공합니다. 본 연구는 현재의 상황을 분석하고 데이터셋 통합을 위한 체계적인 방법을 제시함으로써, 의료 영상 데이터 코퍼스를 확장하고 데이터 검색을 가속화하며, 보다 체계적인 데이터셋 생성과 더욱 강력한 의료 기초 모델 개발을 지원하는 실질적인 로드맵을 제시합니다.
Foundation models have demonstrated remarkable success across diverse domains and tasks, primarily due to the thrive of large-scale, diverse, and high-quality datasets. However, in the field of medical imaging, the curation and assembling of such medical datasets are highly challenging due to the reliance on clinical expertise and strict ethical and privacy constraints, resulting in a scarcity of large-scale unified medical datasets and hindering the development of powerful medical foundation models. In this work, we present the largest survey to date of medical image datasets, covering over 1,000 open-access datasets with a systematic catalog of their modalities, tasks, anatomies, annotations, limitations, and potential for integration. Our analysis exposes a landscape that is modest in scale, fragmented across narrowly scoped tasks, and unevenly distributed across organs and modalities, which in turn limits the utility of existing medical image datasets for developing versatile and robust medical foundation models. To turn fragmentation into scale, we propose a metadata-driven fusion paradigm (MDFP) that integrates public datasets with shared modalities or tasks, thereby transforming multiple small data silos into larger, more coherent resources. Building on MDFP, we release an interactive discovery portal that enables end-to-end, automated medical image dataset integration, and compile all surveyed datasets into a unified, structured table that clearly summarizes their key characteristics and provides reference links, offering the community an accessible and comprehensive repository. By charting the current terrain and offering a principled path to dataset consolidation, our survey provides a practical roadmap for scaling medical imaging corpora, supporting faster data discovery, more principled dataset creation, and more capable medical foundation models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.