2604.09508v1 Apr 10, 2026 cs.CV

VISOR: 반복적인 검색 및 장기적 추론을 통한 시각 정보 검색 기반 생성 모델

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Lingyong Yan
Lingyong Yan
Baidu Inc.
Citations: 1,353
h-index: 16
Jizhou Huang
Jizhou Huang
Citations: 18
h-index: 3
Jiulong Wu
Jiulong Wu
Citations: 38
h-index: 3
Dawei Yin
Dawei Yin
Citations: 4
h-index: 1
Yucheng Shen
Yucheng Shen
Citations: 3
h-index: 1
Min Cao
Min Cao
Citations: 37
h-index: 3

시각 정보 검색 기반 생성 모델(VRAG)은 시각 및 언어 모델이 풍부한 시각 정보를 검색하고 활용하여 답변을 생성하도록 합니다. 복잡한 질의에 대한 다단계 추론이 필요한 경우, 에이전트 기반 VRAG 시스템은 추론과 반복적인 검색을 번갈아 가며 수행합니다. 그러나 기존 에이전트 기반 VRAG 시스템은 다음과 같은 두 가지 중요한 문제점을 가지고 있습니다. (1) 시각적 증거의 희소성: 핵심적인 증거는 여러 페이지에 흩어져 있지만, 개별적으로 처리되어 페이지 간의 추론을 방해합니다. 또한, 세밀한 이미지 내 증거를 활용하려면 정확한 시각적 조치가 필요하며, 이러한 조치의 오용은 검색 품질을 저하시킵니다. (2) 장기적인 검색 과정에서의 방향 상실: 검색된 페이지에 시각적 토큰이 누적되면서 맥락이 희석되고 인지적 부담이 증가하여, 에이전트가 검색 목표에서 벗어나는 현상이 발생합니다. 이러한 문제점을 해결하기 위해, 우리는 반복적인 검색과 장기적 추론을 통한 시각 정보 검색 기반 생성 모델인 VISOR(Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning)을 제안합니다. VISOR는 페이지 간의 점진적인 추론을 위한 구조화된 증거 공간과, 시각적 조치를 관리하기 위한 시각적 액션 평가 및 수정 메커니즘을 특징으로 합니다. 또한, 검색 방향 상실을 완화하기 위해, 동적 트래jectory와 슬라이딩 윈도우, 그리고 의도 주입 기술을 도입했습니다. 이러한 기술은 증거 공간을 고정하고 이전의 원시 상호 작용을 제거하여, 시각적 토큰으로 인해 맥락이 압도되는 것을 방지합니다. 우리는 상태 마스킹과 동적 맥락 재구성을 위한 적절한 보상 할당을 적용한 그룹 상대 정책 최적화(GRPO) 기반 강화 학습(RL) 파이프라인을 사용하여 VISOR를 학습했습니다. ViDoSeek, SlideVQA, 그리고 MMLongBench 데이터셋에 대한 광범위한 실험 결과, VISOR는 장기적인 시각적 추론 작업에서 뛰어난 효율성과 함께 최첨단 성능을 달성함을 보여줍니다.

Original Abstract

Visual Retrieval-Augmented Generation (VRAG) empowers Vision-Language Models to retrieve and reason over visually rich documents. To tackle complex queries requiring multi-step reasoning, agentic VRAG systems interleave reasoning with iterative retrieval.. However, existing agentic VRAG faces two critical bottlenecks. (1) Visual Evidence Sparsity: key evidence is scattered across pages yet processed in isolation, hindering cross-page reasoning; moreover, fine-grained intra-image evidence often requires precise visual actions, whose misuse degrades retrieval quality; (2) Search Drift in Long Horizons: the accumulation of visual tokens across retrieved pages dilutes context and causes cognitive overload, leading agents to deviate from their search objective. To address these challenges, we propose VISOR (Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning), a unified single-agent framework. VISOR features a structured Evidence Space for progressive cross-page reasoning, coupled with a Visual Action Evaluation and Correction mechanism to manage visual actions. Additionally, we introduce a Dynamic Trajectory with Sliding Window and Intent Injection to mitigate search drift. They anchor the evidence space while discarding earlier raw interactions, preventing context from being overwhelmed by visual tokens. We train VISOR using a Group Relative Policy Optimization-based Reinforcement Learning (GRPO-based RL) pipeline with state masking and credit assignment tailored for dynamic context reconstruction. Extensive experiments on ViDoSeek, SlideVQA, and MMLongBench demonstrate that VISOR achieves state-of-the-art performance with superior efficiency for long-horizon visual reasoning tasks.

0 Citations
0 Influential
8 Altmetric
40.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!