R3G: 시각 정보 중심 답변 생성을 위한 추론-검색-재순위 프레임워크
R3G: A Reasoning--Retrieval--Reranking Framework for Vision-Centric Answer Generation
시각 정보 중심의 VQA (Visual Question Answering)에서, 누락된 시각적 정보를 보완하기 위해 이미지를 검색하고 이를 추론 과정에 통합하는 것이 필요합니다. 그러나 적절한 이미지를 선택하고 이를 모델의 추론 과정에 효과적으로 통합하는 것은 여전히 어려운 과제입니다. 이러한 문제를 해결하기 위해, 우리는 모듈화된 추론-검색-재순위 프레임워크인 R3G를 제안합니다. R3G는 먼저 필요한 시각적 정보를 명시하는 간결한 추론 계획을 생성한 다음, 두 단계의 전략을 채택하여 증거 이미지를 선택합니다. 먼저 대략적인 검색을 수행하고, 그 다음 세밀한 재순위를 통해 이미지를 선택합니다. MRAG-Bench 데이터셋에서 R3G는 6개의 다양한 MLLM (Massive Language Learning Model) 모델과 9가지 하위 시나리오에서 정확도를 향상시키며, 최고 수준의 전체 성능을 달성했습니다. 추가 분석 결과, 충분성을 고려한 재순위와 추론 단계는 상호 보완적인 역할을 하며, 모델이 적절한 이미지를 선택하고 이를 효과적으로 사용하는 데 도움을 준다는 것을 확인했습니다. 코드와 데이터는 https://github.com/czh24/R3G 에서 확인할 수 있습니다.
Vision-centric retrieval for VQA requires retrieving images to supply missing visual cues and integrating them into the reasoning process. However, selecting the right images and integrating them effectively into the model's reasoning remains challenging.To address this challenge, we propose R3G, a modular Reasoning-Retrieval-Reranking framework.It first produces a brief reasoning plan that specifies the required visual cues, then adopts a two-stage strategy, with coarse retrieval followed by fine-grained reranking, to select evidence images.On MRAG-Bench, R3G improves accuracy across six MLLM backbones and nine sub-scenarios, achieving state-of-the-art overall performance. Ablations show that sufficiency-aware reranking and reasoning steps are complementary, helping the model both choose the right images and use them well. We release code and data at https://github.com/czh24/R3G.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.