2604.13565v1 Apr 15, 2026 cs.CV

UHR-BAT: 초고해상도 원격 감지 비전-언어 모델을 위한 예산 기반 토큰 압축

UHR-BAT: Budget-Aware Token Compression Vision-Language model for Ultra-High-Resolution Remote Sensing

Yunkai Dang
Yunkai Dang
Citations: 8
h-index: 2
Minxi Dai
Minxi Dai
Citations: 19
h-index: 1
Wenbin Li
Wenbin Li
Citations: 80
h-index: 5
Feng Miao
Feng Miao
Citations: 3
h-index: 1
Yuekun Yang
Yuekun Yang
Citations: 304
h-index: 5
Yang Gao
Yang Gao
Citations: 232
h-index: 7
Zhan Li
Zhan Li
Citations: 25
h-index: 3

초고해상도(UHR) 원격 감지 이미지는 킬로미터 단위의 문맥 정보와 질의에 중요한 단 몇 픽셀에 불과한 세부 정보를 동시에 포함합니다. 이러한 방대한 공간 규모는 시각적 토큰의 기하급수적인 증가를 초래하며, 작은 객체로부터 정보를 추출하는 데 어려움을 야기합니다. 기존 연구에서는 직접 다운샘플링, 밀집 타일링 또는 전역 상위 k개 토큰 제거 방법을 사용했는데, 이는 질의에 중요한 이미지 세부 정보를 손상시키거나 예측 불가능한 계산 비용을 발생시킵니다. 본 논문에서는 엄격한 문맥 예산 내에서 시각적 토큰을 효율적으로 선택하는, 질의 기반의 영역 충실 토큰 압축 프레임워크인 UHR-BAT를 제안합니다. 특히, 시각적 토큰에 대한 텍스트 기반의 다중 스케일 중요도 추정 방법을 활용하여, 정확하면서도 저렴한 비용으로 특징을 추출하는 문제를 효과적으로 해결합니다. 또한, 영역별 보존 및 병합 전략을 도입하여 시각적 토큰의 중복을 줄이고, 계산 비용을 더욱 절감합니다. 실험 결과는 UHR-BAT가 다양한 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 코드는 https://github.com/Yunkaidang/UHR 에서 확인할 수 있습니다.

Original Abstract

Ultra-high-resolution (UHR) remote sensing imagery couples kilometer-scale context with query-critical evidence that may occupy only a few pixels. Such vast spatial scale leads to a quadratic explosion of visual tokens and hinders the extraction of information from small objects. Previous works utilize direct downsampling, dense tiling, or global top-k pruning, which either compromise query-critical image details or incur unpredictable compute. In this paper, we propose UHR-BAT, a query-guided and region-faithful token compression framework to efficiently select visual tokens under a strict context budget. Specifically, we leverage text-guided, multi-scale importance estimation for visual tokens, effectively tackling the challenge of achieving precise yet low-cost feature extraction. Furthermore, by introducing region-wise preserve and merge strategies, we mitigate visual token redundancy, further driving down the computational budget. Experimental results show that UHR-BAT achieves state-of-the-art performance across various benchmarks. Code will be available at https://github.com/Yunkaidang/UHR.

0 Citations
0 Influential
23.5 Altmetric
117.5 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!