의미-기하학적 이중 압축: 초고해상도 원격 감지 데이터 분석을 위한 학습 불필요한 시각적 토큰 감소 기법
Semantic-Geometric Dual Compression: Training-Free Visual Token Reduction for Ultra-High-Resolution Remote Sensing Understanding
다중 모드 대규모 언어 모델(MLLM)은 지구 관측 분야에서 엄청난 잠재력을 보여주었습니다. 그러나 초고해상도(UHR) 이미지 처리 시 생성되는 막대한 양의 시각적 토큰은 엄청난 계산 부담을 초래하여 추론 효율성을 심각하게 저해합니다. 기존의 시각적 토큰 압축 방법은 주로 정적이고 균일한 압축 전략을 채택하며, 원격 감지 해석 작업에 내재된 '의미-기하학적 이중성'을 간과합니다. 구체적으로, 객체 의미 분석 작업은 객체의 추상적인 의미에 집중하며, 배경 영역을 적극적으로 제거하는 것이 유리합니다. 반면, 장면 기하학 분석 작업은 공간적 위상 구조의 완전성에 크게 의존합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 작업에 적응적인 이중 스트림 토큰 압축 프레임워크인 DualComp을 제안합니다. 가볍게 사전 학습된 라우터에 의해 동적으로 제어되는 DualComp은 특징 처리 과정을 두 개의 전용 경로로 분리합니다. 객체 의미 분석 스트림에서는, 공간적으로 연속적인 의미 집계기(SCSA)가 크기에 적응적인 클러스터링을 사용하여 불필요한 배경 영역을 제거하면서 작은 객체를 보호합니다. 장면 기하학 분석 스트림에서는, 지시 기반 구조 복원기(IGSR)가 탐욕적인 경로 추적 기반의 위상 완성 메커니즘을 도입하여 공간적 골격을 재구성합니다. UHR 원격 감지 벤치마크인 XLRS-Bench에서 수행한 실험 결과, DualComp은 뛰어난 효율성과 정확성을 동시에 달성하면서 고품질의 원격 감지 데이터 분석을 가능하게 합니다.
Multimodal Large Language Models (MLLMs) have demonstrated immense potential in Earth observation. However, the massive visual tokens generated when processing Ultra-High-Resolution (UHR) imagery introduce prohibitive computational overhead, severely bottlenecking their inference efficiency. Existing visual token compression methods predominantly adopt static and uniform compression strategies, neglecting the inherent "Semantic-Geometric Duality" in remote sensing interpretation tasks. Specifically, object semantic tasks focus on the abstract semantics of objects and benefit from aggressive background pruning, whereas scene geometric tasks critically rely on the integrity of spatial topology. To address this challenge, we propose DualComp, a task-adaptive dual-stream token compression framework. Dynamically guided by a lightweight pre-trained router, DualComp decouples feature processing into two dedicated pathways. In the object semantic stream, the Spatially-Contiguous Semantic Aggregator (SCSA) utilizes size-adaptive clustering to aggregates redundant background while protecting small object. In the scene geometric stream, the Instruction-Guided Structure Recoverer (IGSR) introduces a greedy path-tracing topology completion mechanism to reconstruct spatial skeletons. Experiments on the UHR remote sensing benchmark XLRS-Bench demonstrate that DualComp accomplishes high-fidelity remote sensing interpretation at an exceptionally low computational cost, achieving simultaneous improvements in both efficiency and accuracy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.