RSHallu: 원격 감지 다중 모드 대규모 언어 모델의 도메인 맞춤형 완화 전략을 위한 이중 모드 환각 평가
RSHallu: Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation
다중 모드 대규모 언어 모델(MLLM)은 원격 감지(RS) 분야에서 점점 더 많이 활용되고 있으며, 원격 감지 시각적 객체 지칭(RSVG), 원격 감지 시각적 질문 응답(RSVQA) 및 다중 모드 대화와 같은 작업에서 뛰어난 성능을 보여줍니다. 그러나 입력된 원격 감지 이미지와 일치하지 않는 응답인 환각 현상은 고위험 시나리오(예: 재난 관리 및 농업 모니터링)에서의 활용을 심각하게 저해하며, 원격 감지 분야에서는 아직 충분히 연구되지 않았습니다. 본 연구에서는 RSHallu라는 체계적인 연구를 제시하며, 세 가지 주요 결과물을 제공합니다. (1) 원격 감지 특화 분류법을 통해 원격 감지 환각을 정의하고, 객체 중심 오류를 넘어 모달리티, 해상도 및 장면 수준 의미론과 같은 원격 감지 특유의 불일치를 포착하기 위해 이미지 수준 환각을 도입합니다. (2) 2,023개의 질문-답변 쌍으로 구성된 환각 벤치마크 RSHalluEval을 구축하고, 정밀한 클라우드 감사와 저비용의 재현 가능한 로컬 검사를 지원하는 15,396개의 질문-답변 쌍으로 구성된 RSHalluCheck 데이터셋으로 미세 조정된 간결한 검사기를 통해 이중 모드 검사를 가능하게 합니다. (3) 30,000개의 질문-답변 쌍으로 구성된 도메인 맞춤형 데이터셋 RSHalluShield를 소개하여 학습 친화적인 완화 전략을 개발하고, 추가적으로 학습이 필요 없는 플러그 앤 플레이 전략(예: 디코딩 시간 로짓 수정 및 원격 감지 인지 프롬프트)을 제안합니다. 대표적인 원격 감지 MLLM에서, 제안하는 완화 전략은 통일된 프로토콜 하에서 환각 없는 비율을 최대 21.63% 포인트까지 향상시키면서, 다운스트림 원격 감지 작업(RSVQA/RSVG)에서의 경쟁력 있는 성능을 유지합니다. 코드 및 데이터셋은 공개될 예정입니다.
Multimodal large language models (MLLMs) are increasingly adopted in remote sensing (RS) and have shown strong performance on tasks such as RS visual grounding (RSVG), RS visual question answering (RSVQA), and multimodal dialogue. However, hallucinations, which are responses inconsistent with the input RS images, severely hinder their deployment in high-stakes scenarios (e.g., emergency management and agricultural monitoring) and remain under-explored in RS. In this work, we present RSHallu, a systematic study with three deliverables: (1) we formalize RS hallucinations with an RS-oriented taxonomy and introduce image-level hallucination to capture RS-specific inconsistencies beyond object-centric errors (e.g., modality, resolution, and scene-level semantics); (2) we build a hallucination benchmark RSHalluEval (2,023 QA pairs) and enable dual-mode checking, supporting high-precision cloud auditing and low-cost reproducible local checking via a compact checker fine-tuned on RSHalluCheck dataset (15,396 QA pairs); and (3) we introduce a domain-tailored dataset RSHalluShield (30k QA pairs) for training-friendly mitigation and further propose training-free plug-and-play strategies, including decoding-time logit correction and RS-aware prompting. Across representative RS-MLLMs, our mitigation improves the hallucination-free rate by up to 21.63 percentage points under a unified protocol, while maintaining competitive performance on downstream RS tasks (RSVQA/RSVG). Code and datasets will be released.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.