2603.11625v1 Mar 12, 2026 cs.CV

MedPruner: 훈련 없이 작동하는 계층적 토큰 가지치기 기법을 활용한 효율적인 3차원 의료 영상 이해를 위한 비전-언어 모델

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

Shengyuan Liu
Shengyuan Liu
Citations: 17
h-index: 2
Wanting Geng
Wanting Geng
Citations: 72
h-index: 2
Yixuan Yuan
Yixuan Yuan
Citations: 303
h-index: 8
Zanting Ye
Zanting Ye
Citations: 16
h-index: 2
Yun-Hsuan Lin
Yun-Hsuan Lin
Citations: 2
h-index: 1
Cheng Hu
Cheng Hu
Citations: 80
h-index: 5
B. Ibragimov
B. Ibragimov
Citations: 111
h-index: 5
Yefeng Zheng
Yefeng Zheng
Citations: 758
h-index: 6
Xu Han
Xu Han
Citations: 29
h-index: 2

특화된 의료 비전-언어 모델(VLMs)은 2차원 및 3차원 의료 영상 해석에서 괄목할 만한 성공을 거두었지만, 3차원 볼륨 데이터에 대한 적용은 여전히 상당한 계산 효율성 문제로 인해 제한적입니다. 현재의 아키텍처는 일반적으로 연속된 2차원 슬라이스를 직접 연결하기 때문에 과도한 해부학적 중복을 나타내며, 고정된 가지치기 비율을 사용하여 서로 다른 슬라이스의 이질적인 정보 밀도를 처리할 수 있는 유연성이 부족합니다. 이러한 문제점을 해결하기 위해, 우리는 효율적인 3차원 의료 영상 이해를 위해 특별히 설계된 훈련 없이 작동하며 모델에 독립적인 계층적 토큰 가지치기 프레임워크인 MedPruner를 제안합니다. MedPruner는 두 단계의 메커니즘을 도입합니다. 첫 번째는 슬라이스 수준의 시간적 중복을 제거하는 Inter-slice Anchor-based Filtering 모듈이며, 두 번째는 누적 어텐션 가중치를 정량화하여 적응적인 토큰 수준 압축을 달성하는 Dynamic Information Nucleus Selection 전략입니다. 세 개의 3차원 의료 벤치마크 및 세 가지 다양한 의료 VLM에 대한 광범위한 실험 결과, 기존 아키텍처에서 상당한 토큰 중복이 존재한다는 것을 보여줍니다. 특히, MedPruner는 MedGemma와 같은 모델이 원본 성능을 유지하거나 능가하는 동시에 시각적 토큰의 5% 미만을 유지할 수 있도록 하여 계산 오버헤드를 크게 줄이고, 실제 임상 적용을 위한 동적 토큰 선택의 필요성을 검증합니다. 저희의 코드는 공개될 예정입니다.

Original Abstract

While specialized Medical Vision-Language Models (VLMs) have achieved remarkable success in interpreting 2D and 3D medical modalities, their deployment for 3D volumetric data remains constrained by significant computational inefficiencies. Current architectures typically suffer from massive anatomical redundancy due to the direct concatenation of consecutive 2D slices and lack the flexibility to handle heterogeneous information densities across different slices using fixed pruning ratios. To address these challenges, we propose MedPruner, a training-free and model-agnostic hierarchical token pruning framework specifically designed for efficient 3D medical image understanding. MedPruner introduces a two-stage mechanism: an Inter-slice Anchor-based Filtering module to eliminate slice-level temporal redundancy, followed by a Dynamic Information Nucleus Selection strategy that achieves adaptive token-level compression by quantifying cumulative attention weights. Extensive experiments on three 3D medical benchmarks and across three diverse medical VLMs reveal massive token redundancy in existing architectures. Notably, MedPruner enables models such as MedGemma to maintain or even exceed their original performance while retaining fewer than 5% of visual tokens, thereby drastically reducing computational overhead and validating the necessity of dynamic token selection for practical clinical deployment. Our code will be released.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!