시각보다 텍스트 먼저: 초고해상도 원격 탐사 이해를 위한 에이전트형 RLVR에서 단계적 지식 주입의 중요성
Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding
초고해상도(UHR) 원격 탐사(RS)를 위한 멀티모달 추론은 대개 시각적 증거 확보 단계에서 병목 현상을 겪습니다. 이는 모델이 방대한 픽셀 공간 속에서 작업과 관련된 아주 미세한 영역을 찾아내야 하기 때문입니다. 줌인(zoom-in) 도구를 활용하는 에이전트형 검증 가능 보상 강화 학습(Agentic RLVR)이 해결책을 제시하지만, 구조화된 도메인 사전 지식 없이는 표준 강화 학습만으로 이러한 광대한 시각적 공간을 탐색하는 데 어려움이 있음을 확인했습니다. 본 논문에서는 UHR RS 벤치마크를 통해 콜드 스타트(Cold-start) 지도 미세 조정(SFT), RLVR, 그리고 에이전트형 RLVR을 비교하며 사후 훈련(post-training) 패러다임 간의 상호 작용을 연구합니다. 통제된 실험 결과, 우리는 직관에 반하는 발견을 했습니다. 바로 고품질의 지구과학 텍스트 전용 QA가 UHR 시각적 추론 성능 향상의 주요 요인이라는 점입니다. 이미지가 없음에도 불구하고, 도메인 특화 텍스트는 시각적 증거 검색을 유도하는 데 필요한 개념, 기계적 설명, 그리고 결정 규칙을 주입해 줍니다. 이에 기반하여 우리는 단계적 지식 주입 방법을 제안합니다: (1) 추론 구조를 주입하기 위해 확장 가능하고 지식 그래프로 검증된 지구과학 텍스트 QA로 콜드 스타트를 수행하고, (2) 이어지는 도구 기반 RL을 안정화하고 증폭시키기 위해 SFT 단계에서 동일한 고난이도 UHR 이미지-텍스트 예제로 '예열(pre-warming)'하는 것입니다. 이 접근법은 XLRS-Bench에서 60.40%의 Pass@1 점수를 기록하며 더 큰 범용 모델들(예: GPT-5.2, Gemini 3.0 Pro, Intern-S1)을 크게 앞서고 새로운 최고 성능(SOTA)을 달성했습니다.
Multimodal reasoning for ultra-high-resolution (UHR) remote sensing (RS) is usually bottlenecked by visual evidence acquisition: the model necessitates localizing tiny task-relevant regions in massive pixel spaces. While Agentic Reinforcement Learning with Verifiable Rewards (RLVR) using zoom-in tools offers a path forward, we find that standard reinforcement learning struggles to navigate these vast visual spaces without structured domain priors. In this paper, we investigate the interplay between post-training paradigms: comparing Cold-start Supervised Fine-Tuning (SFT), RLVR, and Agentic RLVR on the UHR RS benchmark.Our controlled studies yield a counter-intuitive finding: high-quality Earth-science text-only QA is a primary driver of UHR visual reasoning gains. Despite lacking images, domain-specific text injects the concepts, mechanistic explanations, and decision rules necessary to guide visual evidence retrieval.Based on this, we propose a staged knowledge injection recipe: (1) cold-starting with scalable, knowledge-graph-verified Earth-science text QA to instill reasoning structures;and (2) "pre-warming" on the same hard UHR image-text examples during SFT to stabilize and amplify subsequent tool-based RL. This approach achieves a 60.40% Pass@1 on XLRS-Bench, significantly outperforming larger general purpose models (e.g., GPT-5.2, Gemini 3.0 Pro, Intern-S1) and establishing a new state-of-the-art.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.