2602.07045v1 Feb 04, 2026 cs.CV

VLRS-Bench: 원격 감지 분야의 시각-언어 추론 벤치마크

VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing

Bo Du
Bo Du
Citations: 28
h-index: 3
Zhiming Luo
Zhiming Luo
Citations: 106
h-index: 3
Di Wang
Di Wang
Citations: 8
h-index: 2
Haonan Guo
Haonan Guo
Citations: 11
h-index: 2
Jing Zhang
Jing Zhang
Citations: 4
h-index: 1

최근 다중 모드 대규모 언어 모델(MLLM)의 발전은 복잡한 추론 능력을 가능하게 했습니다. 그러나 기존의 원격 감지(RS) 벤치마크는 객체 인식 및 장면 분류와 같은 인식 작업에 지나치게 편향되어 있습니다. 이러한 제한 사항은 인지적으로 복잡한 RS 응용 분야를 위한 MLLM 개발을 방해합니다. 이를 해결하기 위해, 우리는 시각-언어 추론 벤치마크(VLRS-Bench)를 제안합니다. VLRS-Bench는 복잡한 RS 추론에 전념하는 최초의 벤치마크입니다. VLRS-Bench는 인지, 의사 결정 및 예측이라는 세 가지 핵심 차원을 기반으로 구축되었으며, 평균 길이가 71단어인 2,000개의 질문-답변 쌍으로 구성되어 있으며, 14가지 작업과 최대 8개의 시간 단계를 포함합니다. VLRS-Bench는 원격 감지 특유의 사전 지식과 전문가 지식을 통합하는 특수 파이프라인을 통해 구축되었으며, 이를 통해 지리 공간적 현실성과 추론의 복잡성을 보장합니다. 실험 결과는 기존의 최첨단 MLLM에서 상당한 병목 현상이 있음을 보여주며, 원격 감지 분야의 다중 모드 추론 발전을 위한 중요한 통찰력을 제공합니다.

Original Abstract

Recent advancements in Multimodal Large Language Models (MLLMs) have enabled complex reasoning. However, existing remote sensing (RS) benchmarks remain heavily biased toward perception tasks, such as object recognition and scene classification. This limitation hinders the development of MLLMs for cognitively demanding RS applications. To address this, , we propose a Vision Language ReaSoning Benchmark (VLRS-Bench), which is the first benchmark exclusively dedicated to complex RS reasoning. Structured across the three core dimensions of Cognition, Decision, and Prediction, VLRS-Bench comprises 2,000 question-answer pairs with an average length of 71 words, spanning 14 tasks and up to eight temporal phases. VLRS-Bench is constructed via a specialized pipeline that integrates RS-specific priors and expert knowledge to ensure geospatial realism and reasoning complexity. Experimental results reveal significant bottlenecks in existing state-of-the-art MLLMs, providing critical insights for advancing multimodal reasoning within the remote sensing community.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!