VLRS-Bench: 원격 감지 분야의 시각-언어 추론 벤치마크
VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing
최근 다중 모드 대규모 언어 모델(MLLM)의 발전은 복잡한 추론 능력을 가능하게 했습니다. 그러나 기존의 원격 감지(RS) 벤치마크는 객체 인식 및 장면 분류와 같은 인식 작업에 지나치게 편향되어 있습니다. 이러한 제한 사항은 인지적으로 복잡한 RS 응용 분야를 위한 MLLM 개발을 방해합니다. 이를 해결하기 위해, 우리는 시각-언어 추론 벤치마크(VLRS-Bench)를 제안합니다. VLRS-Bench는 복잡한 RS 추론에 전념하는 최초의 벤치마크입니다. VLRS-Bench는 인지, 의사 결정 및 예측이라는 세 가지 핵심 차원을 기반으로 구축되었으며, 평균 길이가 71단어인 2,000개의 질문-답변 쌍으로 구성되어 있으며, 14가지 작업과 최대 8개의 시간 단계를 포함합니다. VLRS-Bench는 원격 감지 특유의 사전 지식과 전문가 지식을 통합하는 특수 파이프라인을 통해 구축되었으며, 이를 통해 지리 공간적 현실성과 추론의 복잡성을 보장합니다. 실험 결과는 기존의 최첨단 MLLM에서 상당한 병목 현상이 있음을 보여주며, 원격 감지 분야의 다중 모드 추론 발전을 위한 중요한 통찰력을 제공합니다.
Recent advancements in Multimodal Large Language Models (MLLMs) have enabled complex reasoning. However, existing remote sensing (RS) benchmarks remain heavily biased toward perception tasks, such as object recognition and scene classification. This limitation hinders the development of MLLMs for cognitively demanding RS applications. To address this, , we propose a Vision Language ReaSoning Benchmark (VLRS-Bench), which is the first benchmark exclusively dedicated to complex RS reasoning. Structured across the three core dimensions of Cognition, Decision, and Prediction, VLRS-Bench comprises 2,000 question-answer pairs with an average length of 71 words, spanning 14 tasks and up to eight temporal phases. VLRS-Bench is constructed via a specialized pipeline that integrates RS-specific priors and expert knowledge to ensure geospatial realism and reasoning complexity. Experimental results reveal significant bottlenecks in existing state-of-the-art MLLMs, providing critical insights for advancing multimodal reasoning within the remote sensing community.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.