시각적 기반 추론을 위한 인지적 흐름 네트워크
Perceptual Flow Network for Visually Grounded Reasoning
대규모 시각-언어 모델(LVLM)의 성공에도 불구하고, 일반적인 최적화 목표(예: 표준 MLE)는 시각적 경로를 제약하지 못하여 언어 편향과 환각 현상을 야기합니다. 이를 완화하기 위해, 현재 방법들은 시각 전문가로부터 얻은 기하학적 정보를 추가적인 지도 방식으로 활용합니다. 그러나, 이러한 지도 방식은 일반적으로 최적이 아니며, 기하학적 정확성에 편향되어 있으며 추론 능력 향상에 제한적입니다. 이러한 간극을 해소하기 위해, 우리는 인지적 흐름 네트워크(PFlowNet)를 제안합니다. PFlowNet은 전문가의 사전 지식에 대한 엄격한 정렬을 피하고, 해석 가능하면서도 효과적인 시각적 추론을 가능하게 합니다. 구체적으로, PFlowNet은 인지 과정과 추론 과정을 분리하여 자체적으로 조건을 부여하는 생성 과정을 구축합니다. 이를 바탕으로, PFlowNet은 변분 강화 학습을 통해 주변의 기하학적 형태를 형성하고, 다차원적인 보상을 통합하여 추론에 적합한 인지적 행동을 촉진하면서도 시각적 신뢰성을 유지합니다. PFlowNet은 검증 가능한 성능 보장을 제공하며, V* Bench (90.6%) 및 MME-RealWorld-lite (67.0%)에서 새로운 최고 성능(SOTA) 기록을 달성하는 등 우수한 실증적 결과를 보여줍니다.
Despite the success of Large-Vision Language Models (LVLMs), general optimization objectives (e.g., standard MLE) fail to constrain visual trajectories, leading to language bias and hallucination. To mitigate this, current methods introduce geometric priors from visual experts as additional supervision. However, we observe that such supervision is typically suboptimal: it is biased toward geometric precision and offers limited reasoning utility. To bridge this gap, we propose Perceptual Flow Network (PFlowNet), which eschews rigid alignment with the expert priors and achieves interpretable yet more effective visual reasoning. Specifically, PFlowNet decouples perception from reasoning to establish a self-conditioned generation process. Based on this, it integrates multi-dimensional rewards with vicinal geometric shaping via variational reinforcement learning, thereby facilitating reasoning-oriented perceptual behaviors while preserving visual reliability. PFlowNet delivers a provable performance guarantee and competitive empirical results, particularly setting new SOTA records on V* Bench (90.6%) and MME-RealWorld-lite (67.0%).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.