순차적 실험 설계를 통한 능동적 추론 비전-언어 모델
Active Reasoning Vision-Language Models via Sequential Experimental Design
현대적인 비전-언어 모델(VLMs)에서의 시각적 인식은 근본적인 인지 대역폭 병목 현상에 의해 제약됩니다. 넓은 시야는 불가피하게 복잡한 추론에 필요한 미세한 세부 사항을 희생합니다. 능동적 시각 및 정보 수집의 고전적인 개념에서 영감을 받아, 이러한 제한을 극복하는 것을 순차적인 의사 결정 과정으로 정의합니다. 우리는 이 과정을 순차적 베이즈 최적 실험 설계(S-BOED) 문제의 관점에서 공식화합니다. 정확한 베이즈 추론은 연속적인 기가픽셀 공간에서 불가능하지만, 우리는 공간적 범위와 해상도의 균형을 맞추는 원칙적이고 실용적인 근사 방법을 도출합니다. 이 프레임워크를 검증하기 위해, 우리는 S-BOED 목표를 실질적으로 구현하는 학습이 필요 없는 추론 전략을 제시하며, 이는 다양한 시각 도구를 갖춘 에이전트에 적용될 수 있습니다. 유연한 템플릿으로 설계된 이 전략은 효율적인 탐욕적 샘플링부터 예측 계획에 이르기까지 다양한 최적화 알고리즘을 수용하여 최적의 설계를 근사할 수 있습니다. 기가픽셀 수준의 벤치마크를 사용한 실험 결과, 우리의 접근 방식이 최첨단 모델의 성능을 향상시키고, 표준적인 기준 모델보다 훨씬 뛰어난 성능을 보이며, 인간이 직접 작성한 데이터(oracle)와의 격차를 효과적으로 줄이는 것을 보여줍니다.
Visual perception in modern Vision-Language Models (VLMs) is constrained by a fundamental perceptual bandwidth bottleneck: a broad field of view inevitably sacrifices the fine-grained details necessary for complex reasoning. Inspired by the classical paradigms of active vision and information foraging, we frame overcoming this limitation as a sequential decision-making process. We formalise this process through the lens of the sequential Bayesian optimal experimental design (S-BOED) problem. While exact Bayesian inference is intractable in continuous gigapixel spaces, we derive principled yet tractable approximations that balance spatial coverage against resolution. To validate this framework, we present a training-free inference strategy as a practical instantiation of the S-BOED objective for agents equipped with multiple vision tools. Designed as a flexible template, this strategy accommodates arbitrary optimisation algorithms, ranging from efficient greedy sampling to look-ahead planning, to approximate the optimal design. Empirical evaluations on gigapixel-level benchmarks demonstrate that our approach further boosts the performance of state-of-the-art models, significantly outperforming standard baselines and effectively narrowing the gap towards human-annotated oracles.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.