AnatomiX: 해부학적 지식을 통합한 다중 모달 대규모 언어 모델을 활용한 흉부 X-ray 영상 판독
AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation
다중 모달 의료 대규모 언어 모델은 흉부 X-ray 영상 판독 분야에서 상당한 발전을 보였지만, 여전히 공간 추론 및 해부학적 이해에 어려움을 겪고 있습니다. 기존의 그래운딩(grounding) 기술은 전체적인 성능을 향상시키지만, 실제 해부학적 대응 관계를 확립하는 데 실패하여 의료 분야에서 부정확한 해부학적 이해를 초래하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 해부학적 지식을 기반으로 흉부 X-ray 영상 판독에 특화된 다중 모달 대규모 언어 모델인 AnatomiX를 제안합니다. AnatomiX는 방사선학적 워크플로우에서 영감을 받아, 먼저 해부학적 구조를 식별하고 특징을 추출한 다음, 대규모 언어 모델을 활용하여 다양한 후속 작업을 수행합니다. 여기에는 구문 그래운딩, 보고서 생성, 시각적 질문 응답 및 이미지 이해 등이 포함됩니다. 다양한 벤치마크에서의 광범위한 실험 결과, AnatomiX는 우수한 해부학적 추론 능력을 보여주며, 기존 방식에 비해 해부학적 그래운딩, 구문 그래운딩, 기반 진단 및 기반 캡션 생성 작업에서 25% 이상의 성능 향상을 달성했습니다. 코드 및 사전 훈련된 모델은 https://github.com/aneesurhashmi/anatomix 에서 확인할 수 있습니다.
Multimodal medical large language models have shown impressive progress in chest X-ray interpretation but continue to face challenges in spatial reasoning and anatomical understanding. Although existing grounding techniques improve overall performance, they often fail to establish a true anatomical correspondence, resulting in incorrect anatomical understanding in the medical domain. To address this gap, we introduce AnatomiX, a multitask multimodal large language model explicitly designed for anatomically grounded chest X-ray interpretation. Inspired by the radiological workflow, AnatomiX adopts a two stage approach: first, it identifies anatomical structures and extracts their features, and then leverages a large language model to perform diverse downstream tasks such as phrase grounding, report generation, visual question answering, and image understanding. Extensive experiments across multiple benchmarks demonstrate that AnatomiX achieves superior anatomical reasoning and delivers over 25% improvement in performance on anatomy grounding, phrase grounding, grounded diagnosis and grounded captioning tasks compared to existing approaches. Code and pretrained model are available at https://github.com/aneesurhashmi/anatomix
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.