AdaFuse: 강화 학습을 이용한 폐암 위험 예측을 위한 적응적 다중 모드 융합
AdaFuse: Adaptive Multimodal Fusion for Lung Cancer Risk Prediction via Reinforcement Learning
다중 모드 융합은 질병 진단 및 예후 분야에서 유망한 방법론으로 부상했으며, 의료 영상, 임상 기록, 방사선 보고서 등 다양한 데이터 소스로부터 상호 보완적인 정보를 통합합니다. 그러나 기존의 융합 방법들은 네트워크를 통해 모든 사용 가능한 모드를 처리하며, 각 모드에 동일한 가중치를 부여하거나, 학습을 통해 다른 기여도를 할당합니다. 이는 다음과 같은 근본적인 질문을 남깁니다. 즉, 특정 환자의 경우, 어떤 모드를 사용하는 것이 적절한가? 본 논문에서는 강화 학습(RL)을 활용하여 환자별 모드 선택 및 융합 전략을 학습하는 적응적 다중 모드 융합 프레임워크인 AdaFuse를 제안합니다. AdaFuse는 다중 모드 융합을 순차적 의사 결정 과정으로 정의하며, 정책 네트워크는 반복적으로 추가 모드를 포함할지 여부를 결정하거나, 이미 획득한 정보를 바탕으로 예측을 수행할지 결정합니다. 이러한 순차적 정의를 통해 모델은 이전 관찰된 모드에 따라 각 선택을 조정하고, 충분한 정보가 확보되면 조기에 종료할 수 있으며, 미리 고정된 모드 집합에 얽매이지 않습니다. AdaFuse는 National Lung Screening Trial (NLST) 데이터셋을 사용하여 평가되었습니다. 실험 결과, AdaFuse는 최고 AUC (0.762)를 달성했으며, 이는 최상의 단일 모드 기준 (0.732), 최상의 고정 융합 전략 (0.759), 그리고 DynMM (0.754) 및 MoE (0.742)와 같은 적응적 기준보다 우수합니다. 또한, AdaFuse는 모든 3가지 모드를 사용하는 방법보다 더 적은 FLOPs를 사용합니다. 본 연구는 의료 영상 분야에서 강화 학습을 활용한 개인 맞춤형 다중 모드 융합의 잠재력을 보여주며, 균일한 융합 전략에서 벗어나 추가 모드를 언제 활용하고, 기존 정보가 정확한 예측에 충분한지 학습하는 적응적인 진단 파이프라인으로의 전환을 의미합니다.
Multimodal fusion has emerged as a promising paradigm for disease diagnosis and prognosis, integrating complementary information from heterogeneous data sources such as medical images, clinical records, and radiology reports. However, existing fusion methods process all available modalities through the network, either treating them equally or learning to assign different contribution weights, leaving a fundamental question unaddressed: for a given patient, should certain modalities be used at all? We present AdaFuse, an adaptive multimodal fusion framework that leverages reinforcement learning (RL) to learn patient-specific modality selection and fusion strategies for lung cancer risk prediction. AdaFuse formulates multimodal fusion as a sequential decision process, where the policy network iteratively decides whether to incorporate an additional modality or proceed to prediction based on the information already acquired. This sequential formulation enables the model to condition each selection on previously observed modalities and terminate early when sufficient information is available, rather than committing to a fixed subset upfront. We evaluate AdaFuse on the National Lung Screening Trial (NLST) dataset. Experimental results demonstrate that AdaFuse achieves the highest AUC (0.762) compared to the best single-modality baseline (0.732), the best fixed fusion strategy (0.759), and adaptive baselines including DynMM (0.754) and MoE (0.742), while using fewer FLOPs than all triple-modality methods. Our work demonstrates the potential of reinforcement learning for personalized multimodal fusion in medical imaging, representing a shift from uniform fusion strategies toward adaptive diagnostic pipelines that learn when to consult additional modalities and when existing information suffices for accurate prediction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.