CoV: 시점 연쇄 프롬프팅을 통한 공간 추론
CoV: Chain-of-View Prompting for Spatial Reasoning
3차원 환경에서의 임베디드 질의 응답(EQA)은 종종 여러 시점에서 분산되고 부분적으로 가려진 맥락 정보를 수집해야 합니다. 그러나 최근의 대부분의 시각-언어 모델(VLM)은 고정된 수의 입력 시점에 제한되어 있어 추론 시 질문과 관련된 맥락 정보를 획득하는 능력을 제한하고 복잡한 공간 추론을 방해합니다. 본 논문에서는 훈련이 필요 없는, 테스트 시점 추론 프레임워크인 Chain-of-View (CoV) 프롬프팅을 제안합니다. CoV는 VLM을 능동적인 시점 추론기로 변환하며, 거칠기로부터 세밀함으로의 탐색 과정을 거칩니다. CoV는 먼저 View Selection 에이전트를 사용하여 중복 프레임을 필터링하고 질문과 관련된 핵심 시점을 식별합니다. 그런 다음, 이 프레임워크는 이산적인 카메라 동작을 통해 반복적인 추론을 수행하며, 3차원 장면 표현에서 새로운 관찰 결과를 얻어 충분한 맥락 정보를 수집하거나 지정된 단계 예산을 초과할 때까지 진행합니다. 본 연구는 OpenEQA 데이터셋에서 네 가지 주요 VLM 모델을 사용하여 CoV를 평가하고, 평균적으로 LLM-Match 점수가 +11.56% 향상되었으며, Qwen3-VL-Flash 모델에서 최대 +13.62%의 성능 향상을 보였습니다. 또한, CoV는 테스트 시점 확장성을 보여주며, 최소 동작 예산을 늘리면 평균적으로 +2.51%의 추가적인 성능 향상을 얻을 수 있으며, Gemini-2.5-Flash 모델에서 최대 +3.73%의 성능 향상을 보였습니다. ScanQA 및 SQA3D 데이터셋에서도 CoV는 뛰어난 성능을 보여주었습니다 (예: ScanQA에서 116 CIDEr / 31.9 EM@1, SQA3D에서 51.1 EM@1). 전반적으로 이러한 결과는 질문과 관련된 시점 선택과 개방형 시점 검색을 결합하는 것이 추가적인 훈련 없이 3차원 EQA에서 공간 추론 능력을 향상시키는 효과적이고 모델에 독립적인 전략임을 시사합니다. 코드 및 관련 정보는 https://github.com/ziplab/CoV 에서 확인할 수 있습니다.
Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached. We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56% improvement in LLM-Match, with a maximum gain of +13.62% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51% average improvement, peaking at +3.73% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training. Code is available on https://github.com/ziplab/CoV .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.