지식 기반 대규모 다중 모드 모델을 위한 픽셀 기반 검색
Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models
시각 질의 응답(VQA)은 종종 입력 이미지 외의 사실적 지식을 활용하여 세밀한 시각적 인식 능력을 요구합니다. 기존의 다중 모드 검색 증강 생성(MM-RAG) 시스템은 사실적 정보의 연결성을 향상시키지만, 언제, 어떻게 검색할지에 대한 내부 정책이 부족합니다. 본 연구에서는 영역 수준의 시각적 인식과 검색 증강 추론을 통합하는 최초의 엔드 투 엔드 대규모 다중 모드 모델(LMM), PixSearch를 제안합니다. PixSearch는 인코딩 과정에서 <search> 토큰을 생성하여 검색을 활성화하고, 텍스트, 이미지 또는 영역 등 다양한 검색 모드를 선택하며, 픽셀 수준의 마스크를 생성하여 직접적인 시각적 쿼리로 활용합니다. 이를 통해 기존의 모듈화된 파이프라인(검출기, 분할기, 캡셔너 등)에 대한 의존성을 줄입니다. 검색 간섭 감독 학습을 포함하는 2단계의 지도 학습 방식을 통해 검색 시점과 쿼리 선택 능력을 향상시키면서도 분할 능력을 유지합니다. PixSearch는 자기 중심 및 개체 중심 VQA 벤치마크에서 사실적 일관성과 일반화 성능을 크게 향상시키며, CRAG-MM 데이터셋에서 전체 이미지 검색 방식에 비해 정확도가 19.7% 향상되었습니다. 또한, 다양한 VQA 및 텍스트 기반 질의 응답 작업에서 경쟁력 있는 추론 성능을 유지합니다.
Visual Question Answering (VQA) often requires coupling fine-grained perception with factual knowledge beyond the input image. Prior multimodal Retrieval-Augmented Generation (MM-RAG) systems improve factual grounding but lack an internal policy for when and how to retrieve. We propose PixSearch, the first end-to-end Segmenting Large Multimodal Model (LMM) that unifies region-level perception and retrieval-augmented reasoning. During encoding, PixSearch emits <search> tokens to trigger retrieval, selects query modalities (text, image, or region), and generates pixel-level masks that directly serve as visual queries, eliminating the reliance on modular pipelines (detectors, segmenters, captioners, etc.). A two-stage supervised fine-tuning regimen with search-interleaved supervision teaches retrieval timing and query selection while preserving segmentation ability. On egocentric and entity-centric VQA benchmarks, PixSearch substantially improves factual consistency and generalization, yielding a 19.7% relative gain in accuracy on CRAG-MM compared to whole image retrieval, while retaining competitive reasoning performance on various VQA and text-only QA tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.