CARE: 다중 모드 의료 추론에서 증거 기반의 자율적 프레임워크를 통한 임상 책임 강화
CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework
대규모 시각 언어 모델(VLM)은 강력한 다중 모드 의료 추론 능력을 보여주었지만, 대부분의 모델은 투명하지 않고, 임상의의 증거 기반의 단계별 워크플로우와는 거리가 멀어 임상적 책임성을 저해합니다. 반면, 전문가 수준의 시각적 위치 정보 모델은 관심 영역(ROI)을 정확하게 식별하여 명확하고 신뢰할 수 있는 증거를 제공함으로써 추론 정확도와 신뢰도를 향상시킵니다. 본 논문에서는 다중 모드 의료 추론에서 임상적 책임성을 강화하는 증거 기반의 자율적 프레임워크인 CARE를 소개합니다. 기존 접근 방식은 위치 정보 추출과 추론을 단일 모델 내에서 결합하는 반면, CARE는 단축 학습 및 환각 현상을 줄이기 위해 작업을 조정된 하위 모듈로 분해합니다. 즉, 소형 VLM이 관련 의료 개체를 제안하고, 전문가 수준의 개체 참조 분할 모델이 픽셀 수준의 ROI 증거를 생성하며, 위치 정보가 포함된 전체 이미지를 기반으로 VLM이 추론을 수행합니다. VLM은 검증 가능한 보상을 활용한 강화 학습을 통해 답변과 지원 증거를 일치시키도록 최적화됩니다. 또한, VLM 조정기는 도구 호출 계획을 수립하고 답변과 증거의 일관성을 검토하여 자율적인 제어 및 최종 검증을 제공합니다. 표준 의료 VQA 벤치마크에서 평가한 결과, 조정기 없이 작동하는 CARE-Flow는 동일한 크기(10B)의 최첨단 모델보다 평균 정확도가 10.9% 향상되었습니다. 동적 계획 및 답변 검토 기능을 갖춘 CARE-Coord는 추가적인 성능 향상을 보여주며, 사전 훈련이 과도하게 이루어진 최첨단 모델보다 5.2% 더 우수한 성능을 보였습니다. 실험 결과는 임상 워크플로우를 모방하고, 분리된 전문 모델과 명시적인 증거를 통합하는 자율적 프레임워크가 더욱 정확하고 책임감 있는 의료 AI 시스템을 구축하는 데 기여한다는 것을 보여줍니다.
Large visual language models (VLMs) have shown strong multi-modal medical reasoning ability, but most operate as end-to-end black boxes, diverging from clinicians' evidence-based, staged workflows and hindering clinical accountability. Complementarily, expert visual grounding models can accurately localize regions of interest (ROIs), providing explicit, reliable evidence that improves both reasoning accuracy and trust. In this paper, we introduce CARE, advancing Clinical Accountability in multi-modal medical Reasoning with an Evidence-grounded agentic framework. Unlike existing approaches that couple grounding and reasoning within a single generalist model, CARE decomposes the task into coordinated sub-modules to reduce shortcut learning and hallucination: a compact VLM proposes relevant medical entities; an expert entity-referring segmentation model produces pixel-level ROI evidence; and a grounded VLM reasons over the full image augmented by ROI hints. The VLMs are optimized with reinforcement learning with verifiable rewards to align answers with supporting evidence. Furthermore, a VLM coordinator plans tool invocation and reviews evidence-answer consistency, providing agentic control and final verification. Evaluated on standard medical VQA benchmarks, our CARE-Flow (coordinator-free) improves average accuracy by 10.9% over the same size (10B) state-of-the-art (SOTA). With dynamic planning and answer review, our CARE-Coord yields a further gain, outperforming the heavily pre-trained SOTA by 5.2%. Our experiments demonstrate that an agentic framework that emulates clinical workflows, incorporating decoupled specialized models and explicit evidence, yields more accurate and accountable medical AI.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.