작성하면서 인용: 훈련 없이 증거를 명시하는 다중 모드 임상 요약
Cite-While-You-Generate: Training-Free Evidence Attribution for Multimodal Clinical Summarization
신뢰할 수 있는 임상 요약은 유창한 생성뿐만 아니라 각 문장의 출처에 대한 투명성을 요구합니다. 본 연구에서는 생성 시점에 원천을 직접 인용할 수 있도록 디코더 어텐션을 활용하는 훈련이 필요 없는 프레임워크를 제안합니다. 이 프레임워크는 사후 처리 또는 재훈련 기반 방법의 한계를 극복합니다. 우리는 두 가지 다중 모드 인용 전략을 소개합니다. 첫째는 이미지 패치 어텐션을 직접 사용하는 '원시 이미지 모드'이고, 둘째는 이미지를 생성된 캡션으로 대체하여 순수 텍스트 기반 정렬을 가능하게 하는 '캡션-스팬 모드'입니다. 두 가지 대표적인 영역, 즉 의료 전문가-환자 대화(CliConSummation) 및 방사선 보고서(MIMIC-CXR)에 대한 평가 결과, 제안하는 방법은 임베딩 기반 및 자체 인용 기준 모델보다 일관되게 우수한 성능을 보이며, 텍스트 수준 및 다중 모드 인용 정확도를 향상시킵니다(예: 임베딩 기준 모델 대비 F1 점수 15% 향상). 캡션 기반 인용은 원시 이미지 어텐션과 경쟁적인 성능을 보이면서도 더 가볍고 실용적입니다. 이러한 결과는 어텐션 기반 인용이 해석 가능하고 배포 가능한 임상 요약 시스템 개발을 위한 유망한 단계임을 보여줍니다.
Trustworthy clinical summarization requires not only fluent generation but also transparency about where each statement comes from. We propose a training-free framework for generation-time source attribution that leverages decoder attentions to directly cite supporting text spans or images, overcoming the limitations of post-hoc or retraining-based methods. We introduce two strategies for multimodal attribution: a raw image mode, which directly uses image patch attentions, and a caption-as-span mode, which substitutes images with generated captions to enable purely text-based alignment. Evaluations on two representative domains: clinician-patient dialogues (CliConSummation) and radiology reports (MIMIC-CXR), show that our approach consistently outperforms embedding-based and self-attribution baselines, improving both text-level and multimodal attribution accuracy (e.g., +15% F1 over embedding baselines). Caption-based attribution achieves competitive performance with raw-image attention while being more lightweight and practical. These findings highlight attention-guided attribution as a promising step toward interpretable and deployable clinical summarization systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.