Step-CoT: 의료 영상 질의응답을 위한 단계별 시각적 추론 체인
Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering
추론 체인(CoT) 방식은 의료 영상 질의응답(VQA) 성능 향상에 기여했지만, 기존 CoT 설명들은 대부분 자유 형식으로 되어 있어 실제 의료 전문가들이 따르는 체계적인 추론 과정을 제대로 반영하지 못합니다. 본 연구에서는 추적 가능한 다단계 추론 지도가 의료 VQA의 정확성과 해석 가능성을 향상시킬 수 있는지 질문합니다. 이를 위해, 본 연구에서는 전문가가 선별하고 구성한 다단계 CoT 설명을 포함하는 대규모 의료 추론 데이터셋인 Step-CoT를 제안합니다. Step-CoT는 실제 임상 사례 10,000건 이상과 진단 워크플로우를 중심으로 구성된 70,000건 이상의 VQA 쌍으로 구성되어 있으며, 모델이 올바른 추론 경로를 따르도록 안내하는 지도형 중간 단계를 제공합니다. Step-CoT에서 효과적으로 학습하기 위해, 우리는 진단적으로 중요한 단계에 우선순위를 부여하고 관련성이 낮은 맥락을 필터링하는 동적 그래프 구조 기반 집중 메커니즘을 갖춘 교수-학생 프레임워크를 추가로 제안합니다. 실험 결과, Step-CoT를 사용하면 추론 정확도와 해석 가능성을 향상시킬 수 있음을 확인했습니다. 벤치마크: github.com/hahaha111111/Step-CoT. 데이터셋 정보: huggingface.co/datasets/fl-15o/Step-CoT
Chain-of-thought (CoT) reasoning has advanced medical visual question answering (VQA), yet most existing CoT rationales are free-form and fail to capture the structured reasoning process clinicians actually follow. This work asks: Can traceable, multi-step reasoning supervision improve reasoning accuracy and the interpretability of Medical VQA? To this end, we introduce Step-CoT, a large-scale medical reasoning dataset with expert-curated, structured multi-step CoT aligned to clinical diagnostic workflows, implicitly grounding the model's reasoning in radiographic evidence. Step-CoT comprises more than 10K real clinical cases and 70K VQA pairs organized around diagnostic workflows, providing supervised intermediate steps that guide models to follow valid reasoning trajectories. To effectively learn from Step-CoT, we further introduce a teacher-student framework with a dynamic graph-structured focusing mechanism that prioritizes diagnostically informative steps while filtering out less relevant contexts. Our experiments show that using Step-CoT can improve reasoning accuracy and interpretability. Benchmark: github.com/hahaha111111/Step-CoT. Dataset Card: huggingface.co/datasets/fl-15o/Step-CoT
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.