PerceptionComp: 복잡한 인지 기반 추론을 위한 비디오 벤치마크
PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning
본 논문에서는 복잡하고 장기적인 인지 기반 비디오 추론을 위한 수동으로 주석이 달린 벤치마크인 PerceptionComp을 소개합니다. PerceptionComp은 단일 프레임만으로는 답변할 수 없는 방식으로 설계되었으며, 각 질문에 답하기 위해서는 시간적으로 분리된 여러 시각적 증거와 논리적 제약 조건(결합 및 순차 논리)이 필요합니다. 이 벤치마크는 객체, 속성, 관계, 위치, 동작, 이벤트 등과 같은 다양한 시각적 하위 작업을 포함하며, 의미론적 인식, 시각적 대응, 시간적 추론 및 공간적 추론과 같은 기술을 요구합니다. PerceptionComp은 도시 관광, 실내 빌라 투어, 비디오 게임, 익스트림 스포츠 등 다양한 분야의 279개의 비디오에 대해 1,114개의 매우 복잡한 질문을 포함하며, 모든 주석은 수동으로 작성되었습니다. 인간 연구 결과, PerceptionComp은 상당한 수준의 추론 능력과 반복적인 인지 과정을 필요로 합니다. 참가자들은 이전 벤치마크보다 훨씬 더 오랜 시간이 걸리며, 다시 시청하는 것이 허용되지 않으면 정확도가 거의 무작위 수준(18.97%)으로 떨어집니다. 최첨단 멀티모달 대규모 언어 모델(MLLM)도 기존 벤치마크에 비해 PerceptionComp에서 훨씬 낮은 성능을 보입니다. 당사의 평가에서 가장 좋은 모델인 Gemini-3-Flash는 5가지 선택지 환경에서 45.96%의 정확도에 불과하며, 오픈 소스 모델은 40% 미만의 정확도를 유지합니다. 이러한 결과는 인지 기반의 장기 비디오 추론이 여전히 주요 기술적 난관임을 시사하며, PerceptionComp이 시각적 추론 분야의 발전을 촉진하는 데 도움이 될 것이라고 기대합니다.
We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.