2604.21814v1 Apr 23, 2026 cs.CV

분할 후 진단: 임상의의 전문 지식을 반영한 초장시간 캡슐 내시경 영상 분석

Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos

Xiaomeng Li
Xiaomeng Li
Citations: 47
h-index: 3
Bowen Liu
Bowen Liu
Citations: 9
h-index: 2
Li Yang
Li Yang
Citations: 7
h-index: 2
Shanshan Song
Shanshan Song
Citations: 19
h-index: 3
Mingyu Tang
Mingyu Tang
Citations: 42
h-index: 2
Zhifang Gao
Zhifang Gao
Citations: 15
h-index: 2
Qifeng Chen
Qifeng Chen
Citations: 10
h-index: 2
Yan Song
Yan Song
Citations: 15
h-index: 2
Huimin Chen
Huimin Chen
Citations: 42
h-index: 2

캡슐 내시경(CE)은 비침습적인 위장관 검사에 사용되지만, 현재 CE 연구는 대부분 프레임 단위의 분류 및 탐지에 국한되어 있으며, 영상 전체 수준의 분석은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 진단 중심의 CE 영상 요약이라는 새로운 과제를 제시하고 정의합니다. 이 과제는 임상적으로 중요한 발견을 포함하는 핵심 증거 프레임을 추출하고, 이러한 증거 프레임을 기반으로 정확한 진단을 내리는 것을 요구합니다. 이 설정은 진단적으로 관련된 이벤트가 매우 드물게 나타나고, 수만 개의 불필요한 정상 프레임에 의해 압도될 수 있다는 점에서 어렵습니다. 또한, 움직임 흐림, 이물질, 반사광, 빠른 시점 변화 등으로 인해 개별적인 관찰 결과가 종종 모호할 수 있습니다. 이러한 연구를 촉진하기 위해, 우리는 실제 임상 보고서를 기반으로 진단 정보를 포함하는 주석이 달린 최초의 CE 데이터셋인 VideoCAP을 소개합니다. VideoCAP은 240개의 전체 길이 영상을 포함하며, 핵심 증거 프레임 추출 및 진단에 대한 현실적인 지도 정보를 제공합니다. 이 과제를 해결하기 위해, 우리는 임상의의 워크플로우를 반영하는 DiCE라는 프레임워크를 제안합니다. DiCE는 먼저 원본 영상에서 효율적인 후보군을 선별한 다음, Context Weaver를 사용하여 후보군을 일관된 진단 맥락으로 구성하고, 각 맥락 내에서 다수의 프레임 증거를 결합하여 견고한 클립 수준의 판단을 내립니다. 실험 결과, DiCE는 최첨단 방법보다 일관되게 우수한 성능을 보이며, 간결하고 임상적으로 신뢰할 수 있는 진단 요약을 생성합니다. 이러한 결과는 진단 중심의 맥락적 추론이 초장시간 CE 영상 요약에 대한 유망한 패러다임임을 보여줍니다.

Original Abstract

Capsule endoscopy (CE) enables non-invasive gastrointestinal screening, but current CE research remains largely limited to frame-level classification and detection, leaving video-level analysis underexplored. To bridge this gap, we introduce and formally define a new task, diagnosis-driven CE video summarization, which requires extracting key evidence frames that covers clinically meaningful findings and making accurate diagnoses from those evidence frames. This setting is challenging because diagnostically relevant events are extremely sparse and can be overwhelmed by tens of thousands of redundant normal frames, while individual observations are often ambiguous due to motion blur, debris, specular highlights, and rapid viewpoint changes. To facilitate research in this direction, we introduce VideoCAP, the first CE dataset with diagnosis-driven annotations derived from real clinical reports. VideoCAP comprises 240 full-length videos and provides realistic supervision for both key evidence frame extraction and diagnosis. To address this task, we further propose DiCE, a clinician-inspired framework that mirrors the standard CE reading workflow. DiCE first performs efficient candidate screening over the raw video, then uses a Context Weaver to organize candidates into coherent diagnostic contexts that preserve distinct lesion events, and an Evidence Converger to aggregate multi-frame evidence within each context into robust clip-level judgments. Experiments show that DiCE consistently outperforms state-of-the-art methods, producing concise and clinically reliable diagnostic summaries. These results highlight diagnosis-driven contextual reasoning as a promising paradigm for ultra-long CE video summarization.

2 Citations
0 Influential
1.5 Altmetric
9.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!