MedXIAOHE: 의료 분야 멀티모달 대규모 언어 모델 구축을 위한 종합적인 방법론
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
본 논문에서는 실질적인 임상 응용 분야에서 의료 분야의 일반적인 이해와 추론 능력을 향상시키기 위해 설계된 의료 비전-언어 기반 모델인 MedXIAOHE를 소개합니다. MedXIAOHE는 다양한 의료 분야 벤치마크에서 최고 수준의 성능을 달성했으며, 여러 기능에서 선도적인 독점 멀티모달 시스템을 능가합니다. 이를 달성하기 위해, 우리는 지식 범위를 넓히고 희귀 질환과 같은 '롱테일' 현상을 줄이기 위해 다양한 의료 데이터를 체계적으로 구성하는 엔티티 기반의 지속적인 사전 훈련 프레임워크를 제안합니다. 또한, 의료 전문가 수준의 추론 및 상호 작용을 위해 강화 학습 및 도구 기반 에이전트 훈련을 통해 다양한 의료 추론 패턴을 통합하여 검증 가능한 의사 결정 과정을 포함하는 다단계 진단 추론을 가능하게 합니다. 실제 사용에서의 신뢰성을 향상시키기 위해, MedXIAOHE는 사용자 선호도 기준, 증거 기반 추론, 그리고 환각 현상을 줄인 장문 보고서 생성 기능을 통합하여 의료 지침 준수율을 높였습니다. 본 보고서는 실제 설계 선택, 확장 관련 통찰력, 그리고 평가 프레임워크를 자세히 설명하며, 추가 연구에 영감을 주기를 바랍니다.
We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.