2602.00104v1 Jan 25, 2026 cs.CV

R3G: 시각 정보 중심 답변 생성을 위한 추론-검색-재순위 프레임워크

R3G: A Reasoning--Retrieval--Reranking Framework for Vision-Centric Answer Generation

Zhuo Chen
Zhuo Chen
Citations: 162
h-index: 3
Zhengxian Wu
Zhengxian Wu
Citations: 8
h-index: 2
Zirui Liao
Zirui Liao
Citations: 6
h-index: 2
Shenao Jiang
Shenao Jiang
Citations: 3
h-index: 1
Hangrui Xu
Hangrui Xu
Citations: 6
h-index: 2
Yang Chen
Yang Chen
Citations: 213
h-index: 8
Chaokui Su
Chaokui Su
Citations: 2
h-index: 1
Xiaoyu Liu
Xiaoyu Liu
Citations: 169
h-index: 6
Haoqian Wang
Haoqian Wang
Citations: 14
h-index: 2

시각 정보 중심의 VQA (Visual Question Answering)에서, 누락된 시각적 정보를 보완하기 위해 이미지를 검색하고 이를 추론 과정에 통합하는 것이 필요합니다. 그러나 적절한 이미지를 선택하고 이를 모델의 추론 과정에 효과적으로 통합하는 것은 여전히 어려운 과제입니다. 이러한 문제를 해결하기 위해, 우리는 모듈화된 추론-검색-재순위 프레임워크인 R3G를 제안합니다. R3G는 먼저 필요한 시각적 정보를 명시하는 간결한 추론 계획을 생성한 다음, 두 단계의 전략을 채택하여 증거 이미지를 선택합니다. 먼저 대략적인 검색을 수행하고, 그 다음 세밀한 재순위를 통해 이미지를 선택합니다. MRAG-Bench 데이터셋에서 R3G는 6개의 다양한 MLLM (Massive Language Learning Model) 모델과 9가지 하위 시나리오에서 정확도를 향상시키며, 최고 수준의 전체 성능을 달성했습니다. 추가 분석 결과, 충분성을 고려한 재순위와 추론 단계는 상호 보완적인 역할을 하며, 모델이 적절한 이미지를 선택하고 이를 효과적으로 사용하는 데 도움을 준다는 것을 확인했습니다. 코드와 데이터는 https://github.com/czh24/R3G 에서 확인할 수 있습니다.

Original Abstract

Vision-centric retrieval for VQA requires retrieving images to supply missing visual cues and integrating them into the reasoning process. However, selecting the right images and integrating them effectively into the model's reasoning remains challenging.To address this challenge, we propose R3G, a modular Reasoning-Retrieval-Reranking framework.It first produces a brief reasoning plan that specifies the required visual cues, then adopts a two-stage strategy, with coarse retrieval followed by fine-grained reranking, to select evidence images.On MRAG-Bench, R3G improves accuracy across six MLLM backbones and nine sub-scenarios, achieving state-of-the-art overall performance. Ablations show that sufficiency-aware reranking and reasoning steps are complementary, helping the model both choose the right images and use them well. We release code and data at https://github.com/czh24/R3G.

2 Citations
0 Influential
33.729550745277 Altmetric
170.6 Score
Original PDF
6

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!