2604.08991v1 Apr 10, 2026 cs.CV

PinpointQA: 실내 동영상에서 작은 객체 중심의 공간 이해를 위한 데이터셋 및 벤치마크

PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos

Zhi Zhou
Zhi Zhou
Citations: 85
h-index: 5
Ruoxuan Zhang
Ruoxuan Zhang
Citations: 11
h-index: 2
Hongxia Xie
Hongxia Xie
Citations: 1
h-index: 1
Peilin Liu
Peilin Liu
Citations: 2
h-index: 1
Luyang Zhang
Luyang Zhang
Citations: 59
h-index: 4
Chengwen Zhang
Chengwen Zhang
Citations: 38
h-index: 2
Wen-Huang Cheng
Wen-Huang Cheng
Citations: 14
h-index: 1

실내 동영상에서의 작은 객체 중심의 공간 이해는 객체 검색 및 보조 애플리케이션에 실질적인 가치를 제공하지만, 멀티모달 대규모 언어 모델(MLLM)에게 여전히 중요한 과제입니다. 기존 벤치마크는 동영상 공간 지능, 내재적 추론 및 진단적 인식 능력을 향상시켰지만, 모델이 동영상에서 특정 객체를 위치시키고 그 위치를 다운스트림 사용에 적합한 정확도로 표현할 수 있는지를 직접적으로 평가하는 벤치마크는 존재하지 않았습니다. 본 연구에서는 실내 동영상에서 작은 객체 중심의 공간 이해를 위한 최초의 데이터셋 및 벤치마크인 PinpointQA를 소개합니다. ScanNet++ 및 ScanNet200을 기반으로 구축된 PinpointQA는 1,024개의 장면과 10,094개의 질의응답 쌍으로 구성되며, 난이도가 점진적으로 증가하는 네 가지 과제로 구성됩니다: 객체 존재 확인(TPV), 가장 가까운 참조 객체 식별(NRI), 세밀한 공간 설명(FSD), 그리고 구조화된 공간 예측(SSP). 이 데이터셋은 중간 단계의 공간 표현을 기반으로 구축되었으며, 질의응답 쌍은 자동으로 생성되고 품질 관리 과정을 거쳐 개선되었습니다. 대표적인 MLLM에 대한 실험 결과, 난이도가 점진적으로 증가하는 과제들을 수행하는 데 일관된 능력 격차가 나타났으며, 특히 SSP가 가장 어려운 것으로 나타났습니다. PinpointQA를 사용하여 지도 학습을 진행한 결과, 특히 어려운 과제에서 상당한 성능 향상을 보였으며, 이는 PinpointQA가 진단 벤치마크이자 효과적인 학습 데이터셋으로 활용될 수 있음을 보여줍니다. 데이터셋 및 프로젝트 페이지는 https://rainchowz.github.io/PinpointQA 에서 확인할 수 있습니다.

Original Abstract

Small object-centric spatial understanding in indoor videos remains a significant challenge for multimodal large language models (MLLMs), despite its practical value for object search and assistive applications. Although existing benchmarks have advanced video spatial intelligence, embodied reasoning, and diagnostic perception, no existing benchmark directly evaluates whether a model can localize a target object in video and express its position with sufficient precision for downstream use. In this work, we introduce PinpointQA, the first dataset and benchmark for small object-centric spatial understanding in indoor videos. Built from ScanNet++ and ScanNet200, PinpointQA comprises 1,024 scenes and 10,094 QA pairs organized into four progressively challenging tasks: Target Presence Verification (TPV), Nearest Reference Identification (NRI), Fine-Grained Spatial Description (FSD), and Structured Spatial Prediction (SSP). The dataset is built from intermediate spatial representations, with QA pairs generated automatically and further refined through quality control. Experiments on representative MLLMs reveal a consistent capability gap along the progressive chain, with SSP remaining particularly difficult. Supervised fine-tuning on PinpointQA yields substantial gains, especially on the harder tasks, demonstrating that PinpointQA serves as both a diagnostic benchmark and an effective training dataset. The dataset and project page are available at https://rainchowz.github.io/PinpointQA.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!