2602.14225v1 Feb 15, 2026 cs.AI

시각보다 텍스트 먼저: 초고해상도 원격 탐사 이해를 위한 에이전트형 RLVR에서 단계적 지식 주입의 중요성

Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding

Haoyu Wang
Haoyu Wang
Citations: 44
h-index: 2
Yuhao Zhou
Yuhao Zhou
Citations: 50
h-index: 5
Fengxiang Wang
Fengxiang Wang
Citations: 91
h-index: 6
Mingshuo Chen
Mingshuo Chen
Citations: 64
h-index: 4
Yueying Li
Yueying Li
Citations: 15
h-index: 1
Yajie Yang
Yajie Yang
Citations: 0
h-index: 0
Di Wang
Di Wang
Citations: 113
h-index: 7
Yifan Zhang
Yifan Zhang
Citations: 237
h-index: 7
Haiyan Zhao
Haiyan Zhao
Citations: 29
h-index: 3
Hongda Sun
Hongda Sun
Citations: 0
h-index: 0
Long Lan
Long Lan
Citations: 117
h-index: 8
Jun Song
Jun Song
Citations: 322
h-index: 8
Yulin Wang
Yulin Wang
Citations: 55
h-index: 3
Jing Zhang
Jing Zhang
Citations: 248
h-index: 8
Wenlong Zhang
Wenlong Zhang
Citations: 41
h-index: 1
Bo Du
Bo Du
Citations: 28
h-index: 3

초고해상도(UHR) 원격 탐사(RS)를 위한 멀티모달 추론은 대개 시각적 증거 확보 단계에서 병목 현상을 겪습니다. 이는 모델이 방대한 픽셀 공간 속에서 작업과 관련된 아주 미세한 영역을 찾아내야 하기 때문입니다. 줌인(zoom-in) 도구를 활용하는 에이전트형 검증 가능 보상 강화 학습(Agentic RLVR)이 해결책을 제시하지만, 구조화된 도메인 사전 지식 없이는 표준 강화 학습만으로 이러한 광대한 시각적 공간을 탐색하는 데 어려움이 있음을 확인했습니다. 본 논문에서는 UHR RS 벤치마크를 통해 콜드 스타트(Cold-start) 지도 미세 조정(SFT), RLVR, 그리고 에이전트형 RLVR을 비교하며 사후 훈련(post-training) 패러다임 간의 상호 작용을 연구합니다. 통제된 실험 결과, 우리는 직관에 반하는 발견을 했습니다. 바로 고품질의 지구과학 텍스트 전용 QA가 UHR 시각적 추론 성능 향상의 주요 요인이라는 점입니다. 이미지가 없음에도 불구하고, 도메인 특화 텍스트는 시각적 증거 검색을 유도하는 데 필요한 개념, 기계적 설명, 그리고 결정 규칙을 주입해 줍니다. 이에 기반하여 우리는 단계적 지식 주입 방법을 제안합니다: (1) 추론 구조를 주입하기 위해 확장 가능하고 지식 그래프로 검증된 지구과학 텍스트 QA로 콜드 스타트를 수행하고, (2) 이어지는 도구 기반 RL을 안정화하고 증폭시키기 위해 SFT 단계에서 동일한 고난이도 UHR 이미지-텍스트 예제로 '예열(pre-warming)'하는 것입니다. 이 접근법은 XLRS-Bench에서 60.40%의 Pass@1 점수를 기록하며 더 큰 범용 모델들(예: GPT-5.2, Gemini 3.0 Pro, Intern-S1)을 크게 앞서고 새로운 최고 성능(SOTA)을 달성했습니다.

Original Abstract

Multimodal reasoning for ultra-high-resolution (UHR) remote sensing (RS) is usually bottlenecked by visual evidence acquisition: the model necessitates localizing tiny task-relevant regions in massive pixel spaces. While Agentic Reinforcement Learning with Verifiable Rewards (RLVR) using zoom-in tools offers a path forward, we find that standard reinforcement learning struggles to navigate these vast visual spaces without structured domain priors. In this paper, we investigate the interplay between post-training paradigms: comparing Cold-start Supervised Fine-Tuning (SFT), RLVR, and Agentic RLVR on the UHR RS benchmark.Our controlled studies yield a counter-intuitive finding: high-quality Earth-science text-only QA is a primary driver of UHR visual reasoning gains. Despite lacking images, domain-specific text injects the concepts, mechanistic explanations, and decision rules necessary to guide visual evidence retrieval.Based on this, we propose a staged knowledge injection recipe: (1) cold-starting with scalable, knowledge-graph-verified Earth-science text QA to instill reasoning structures;and (2) "pre-warming" on the same hard UHR image-text examples during SFT to stabilize and amplify subsequent tool-based RL. This approach achieves a 60.40% Pass@1 on XLRS-Bench, significantly outperforming larger general purpose models (e.g., GPT-5.2, Gemini 3.0 Pro, Intern-S1) and establishing a new state-of-the-art.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!