2602.11858v2 Feb 12, 2026 cs.CV

줌 없는 줌: 세밀한 다중모달 인지를 위한 영역-대-이미지 지식 증류

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Lai Wei
Lai Wei
Shanghai Jiao Tong University
Citations: 234
h-index: 7
Jun Lan
Jun Lan
Citations: 59
h-index: 4
Lingzhong Dong
Lingzhong Dong
Citations: 165
h-index: 2
Huijia Zhu
Huijia Zhu
Citations: 50
h-index: 4
Weiqiang Wang
Weiqiang Wang
Citations: 147
h-index: 5
Linghe Kong
Linghe Kong
Citations: 48
h-index: 3
Yue Wang
Yue Wang
Citations: 42
h-index: 4
Zhuosheng Zhang
Zhuosheng Zhang
Citations: 42
h-index: 2
Weiran Huang
Weiran Huang
Citations: 53
h-index: 4
Liang He
Liang He
Citations: 455
h-index: 8
Yutong Cai
Yutong Cai
Citations: 106
h-index: 5
Siyuan Li
Siyuan Li
Citations: 16
h-index: 3

다중모달 대형 언어 모델(MLLM)은 전반적인 시각적 이해에는 뛰어나지만, 결정적인 증거가 작고 전체적인 문맥에 의해 쉽게 압도되는 세밀한(fine-grained) 인지에는 여전히 어려움을 겪고 있다. 최근의 "이미지와 함께 생각하기(Thinking-with-Images)" 방법들은 추론 과정에서 관심 영역을 반복적으로 확대(zoom in) 및 축소(zoom out)하여 이 문제를 완화하지만, 반복적인 도구 호출과 시각적 재인코딩으로 인해 높은 지연 시간을 발생시킨다. 이를 해결하기 위해, 우리는 줌(zooming)을 추론 시간의 도구에서 학습 시간의 기본 요소로 변환하여 에이전트 기반 줌의 이점을 MLLM의 단일 순전파(single forward pass)로 내재화하는 영역-대-이미지 지식 증류(Region-to-Image Distillation)를 제안한다. 구체적으로, 강력한 교사 모델이 고품질의 VQA 데이터를 생성할 수 있도록 미세하게 크롭된(micro-cropped) 영역을 먼저 확대한 다음, 이 영역 기반의 지도(supervision)를 다시 전체 이미지로 증류한다. 이러한 데이터로 학습한 후, 더 작은 학생 모델은 도구 사용 없이도 "단번의(single-glance)" 세밀한 인지 능력을 향상시킨다. 이 능력을 엄격하게 평가하기 위해, 우리는 전체-영역 간의 "줌 격차(zooming gap)"를 정량화하는 이중 뷰 프로토콜과 함께 6가지 세밀한 인지 차원에 걸친 845개의 VQA 데이터로 구성된 하이브리드 주석 벤치마크인 ZoomBench를 추가로 제시한다. 실험 결과, 우리의 모델은 여러 세밀한 인지 벤치마크에서 최고 수준의 성능을 달성했으며, 시각적 추론 및 GUI 에이전트와 같은 벤치마크에서도 일반적인 다중모달 인지 능력을 향상시켰다. 또한 우리는 "이미지와 함께 생각하기"가 언제 필요한지, 그리고 언제 그 이점을 단일 순전파로 증류할 수 있는지에 대해 논의한다. 우리의 코드는 https://github.com/inclusionAI/Zooming-without-Zooming 에서 확인할 수 있다.

Original Abstract

Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.

0 Citations
0 Influential
45.452297205742 Altmetric
227.3 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!