2603.25155v1 Mar 26, 2026 cs.CV

Photon: 효율적인 다중 모드 대규모 언어 모델을 활용한 3차원 데이터 이해 능력 향상

Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models

Min Xu
Min Xu
Citations: 6
h-index: 1
Chengyu Fang
Chengyu Fang
Citations: 461
h-index: 11
Heng Guo
Heng Guo
Citations: 46
h-index: 3
Zhengyao Jiang
Zhengyao Jiang
Citations: 10
h-index: 2
Chunming He
Chunming He
Citations: 102
h-index: 3
Xiu Li
Xiu Li
Citations: 309
h-index: 7

다중 모드 대규모 언어 모델은 의료 영상 기반 질의응답 작업에 유망하지만, 3차원 영상 데이터에 적용할 때 높은 계산 비용으로 인해 어려움을 겪습니다. 기존 방법들은 주로 2차원 슬라이스를 사용하거나 고정 길이의 토큰 압축을 통해 처리하는데, 이는 3차원 데이터의 연속성을 깨뜨리고 미묘한 특징을 가리는 문제를 야기합니다. 본 논문에서는 Photon이라는 프레임워크를 제안합니다. Photon은 3차원 의료 데이터를 가변 길이의 토큰 시퀀스로 표현하며, 학습 및 추론 과정에서 instruction-conditioned 토큰 스케줄링과 대리 그래디언트 전파를 도입하여 토큰 수를 적응적으로 줄임으로써 계산 비용을 낮추고, 중복된 토큰으로 인한 어텐션 희석 현상을 완화합니다. 또한, Photon은 discrete한 토큰 삭제에도 불구하고 미분 가능한 최적화를 가능하게 하기 위해 사용자 정의 역전파 규칙과 그래디언트 복원 기능을 포함합니다. 토큰 압축의 안정성을 높이고 시각적 증거의 신뢰성을 확보하기 위해, Photon은 언어 모델에만 의존하는 편향을 줄이고 신뢰성을 향상시키는 정규화 목표를 추가로 적용합니다. 다양한 의료 영상 기반 질의응답 작업에 대한 실험 결과, Photon은 최첨단 수준의 정확도를 달성하면서도 리소스 사용량을 줄이고 학습 및 추론 속도를 가속화하는 것을 확인했습니다.

Original Abstract

Multimodal large language models are promising for clinical visual question answering tasks, but scaling to 3D imaging is hindered by high computational costs. Prior methods often rely on 2D slices or fixed-length token compression, disrupting volumetric continuity and obscuring subtle findings. We present Photon, a framework that represents 3D medical volumes with token sequences of variable length. Photon introduces instruction-conditioned token scheduling and surrogate gradient propagation to adaptively reduce tokens during both training and inference, which lowers computational cost while mitigating the attention dilution caused by redundant tokens. It incorporates a custom backpropagation rule with gradient restoration to enable differentiable optimization despite discrete token drop. To stabilize token compression and ensure reliable use of visual evidence, Photon further applies regularization objectives that mitigate language-only bias and improve reliability. Experiments on diverse medical visual question answering tasks show that Photon achieves state-of-the-art accuracy while reducing resource usage and accelerating both training and inference.

5 Citations
0 Influential
5.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!