2603.16932v1 Mar 14, 2026 cs.CV

중요한 곳에 집중: 효율적인 시각-언어 모델을 위한 고해상도 이미지 영역 추출

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Chaim Baskin
Chaim Baskin
Ben-Gurion University of the Negev
Citations: 1,129
h-index: 14
Nimrod Shabtay
Nimrod Shabtay
Citations: 60
h-index: 4
M. Kimhi
M. Kimhi
Citations: 57
h-index: 5
Artem Spector
Artem Spector
Citations: 317
h-index: 8
Sivan Haray
Sivan Haray
Citations: 0
h-index: 0
Ehud Rivlin
Ehud Rivlin
Citations: 11
h-index: 2
R. Giryes
R. Giryes
Citations: 30
h-index: 4
Eli Schwartz
Eli Schwartz
Citations: 4
h-index: 1

시각-언어 모델(VLMs)은 일반적으로 고해상도 이미지로 작동하여 정확도와 계산 효율성 사이의 균형을 맞추어야 합니다. 고해상도 입력은 미세한 디테일을 포착하지만 상당한 계산 비용이 발생하며, 저해상도 입력은 효율성을 높이지만 중요한 시각 정보를 놓칠 수 있습니다(예: 작은 텍스트). 본 논문에서는 AwaRes라는 프레임워크를 제안합니다. AwaRes는 저해상도 전역 뷰에서 작동하고, 도구 호출을 사용하여 특정 쿼리에 필요한 고해상도 영역만 추출하여 정확도와 효율성 사이의 균형을 맞춥니다. 우리는 지도 학습 데이터를 자동으로 생성합니다. 판별자는 저해상도 답변과 고해상도 답변을 비교하여 영역 추출이 필요한지 여부를 판단하고, 정답에 대한 증거를 찾는 오라클 모델은 올바른 답변에 대한 증거를 특정하여, 이를 이산적인 영역 집합으로 매핑하여 다단계 도구 사용 경로를 생성합니다. 우리는 콜드 스타트 SFT(Supervised Fine-Tuning)로 프레임워크를 학습하고, 그 후 다단계 GRPO(Generative Reinforcement Preference Optimization)를 사용하여 의미론적 답변 정확도와 명시적인 영역 추출 비용 페널티를 결합한 복합 보상을 적용합니다. 프로젝트 페이지: https://nimrodshabtay.github.io/AwaRes

Original Abstract

Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!