Glance-or-Gaze: 강화학습을 통해 LMM이 적응적으로 검색 초점을 맞추도록 유도하기
Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning
대규모 멀티모달 모델(LMM)은 시각적 이해 분야에서 놀라운 성과를 거두었으나, 정적인 매개변수 지식으로 인해 롱테일(long-tail) 엔티티나 변화하는 정보를 포함하는 지식 집약적 질의를 처리하는 데 어려움을 겪고 있습니다. 최근 검색 증강(search-augmented) 접근 방식들이 이러한 한계를 해결하려고 시도하고 있지만, 기존 방법들은 무차별적인 전체 이미지 검색에 의존하여 상당한 시각적 중복과 노이즈를 유발하며, 깊이 있는 반복적 성찰(reflection)이 부족하여 복잡한 시각적 질의에 대한 효과가 제한적입니다. 이러한 문제를 극복하기 위해, 우리는 수동적 인식에서 능동적 시각 계획으로 전환하는 완전 자율 프레임워크인 Glance-or-Gaze(GoG)를 제안합니다. GoG는 검색 전 불필요한 정보를 필터링하기 위해, 전역적 문맥을 훑어볼지(glance) 아니면 고가치 영역을 응시할지(gaze)를 동적으로 선택하는 '선택적 응시(Selective Gaze)' 메커니즘을 도입합니다. 우리는 2단계 학습 전략을 설계했습니다. 지도 미세 조정을 통한 '성찰적 GoG 행동 정렬(Reflective GoG Behavior Alignment)'은 기본적인 GoG 패러다임을 주입하고, '복잡도 적응형 강화학습(Complexity-Adaptive Reinforcement Learning)'은 반복적 추론을 통해 복잡한 질의를 처리하는 모델의 능력을 더욱 향상시킵니다. 6개 벤치마크에 대한 실험을 통해 최고 수준(SOTA)의 성능을 입증했습니다. 소거 연구(Ablation study)를 통해 선택적 응시와 복잡도 적응형 강화학습 모두 효과적인 시각적 검색에 필수적임을 확인했습니다. 추후 연구를 위해 데이터와 모델을 곧 공개할 예정입니다.
Large Multimodal Models (LMMs) have achieved remarkable success in visual understanding, yet they struggle with knowledge-intensive queries involving long-tail entities or evolving information due to static parametric knowledge. Recent search-augmented approaches attempt to address this limitation, but existing methods rely on indiscriminate whole-image retrieval that introduces substantial visual redundancy and noise, and lack deep iterative reflection, limiting their effectiveness on complex visual queries. To overcome these challenges, we propose Glance-or-Gaze (GoG), a fully autonomous framework that shifts from passive perception to active visual planning. GoG introduces a Selective Gaze mechanism that dynamically chooses whether to glance at global context or gaze into high-value regions, filtering irrelevant information before retrieval. We design a dual-stage training strategy: Reflective GoG Behavior Alignment via supervised fine-tuning instills the fundamental GoG paradigm, while Complexity-Adaptive Reinforcement Learning further enhances the model's capability to handle complex queries through iterative reasoning. Experiments across six benchmarks demonstrate state-of-the-art performance. Ablation studies confirm that both Selective Gaze and complexity-adaptive RL are essential for effective visual search. We will release our data and models for further exploration soon.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.