더 긴 시간적 맥락이 뇌에서 멀티모달 내러티브 비디오 처리 방식을 어떻게 향상시키는가?
How does longer temporal context enhance multimodal narrative video processing in the brain?
인간과 인공지능 시스템이 복잡한 내러티브 비디오를 처리하는 방식을 이해하는 것은 신경과학과 머신러닝의 교차 분야에서 근본적인 과제입니다. 본 연구는 비디오 클립의 시간적 맥락 길이(3~12초 클립)와 내러티브 관련 작업 지침이 자연스러운 영화 시청 중 뇌-모델의 일치성에 미치는 영향을 조사합니다. 참가자들이 전체 길이의 영화를 시청하는 동안 얻은 fMRI 데이터를 사용하여, 뇌 영역이 내러티브 맥락에 민감하게 반응하며 다양한 시간 척도에서 정보를 어떻게 동적으로 표현하는지, 그리고 이러한 신경 패턴이 모델에서 파생된 특징과 어떻게 일치하는지 분석했습니다. 연구 결과, 클립의 길이가 증가하면 멀티모달 대규모 언어 모델(MLLM)의 뇌 일치성이 크게 향상되는 반면, 단일 모드 비디오 모델은 거의 또는 전혀 향상을 보이지 않습니다. 또한, 짧은 시간 윈도우는 지각 및 초기 언어 영역과 일치하는 반면, 긴 시간 윈도우는 고차 통합 영역과 더 잘 일치하며, 이는 MLLM의 레이어-피질 계층 구조를 반영합니다. 마지막으로, 내러티브 관련 작업 지침(멀티 장면 요약, 내러티브 요약, 캐릭터 동기, 이벤트 경계 감지)은 작업별, 영역 의존적인 뇌 일치 패턴을 유발하며, 고차 영역에서 클립 수준의 튜닝에 맥락 의존적인 변화를 초래합니다. 종합적으로, 본 연구 결과는 장편 내러티브 영화를 생물학적으로 관련된 시간 통합 및 해석 가능한 표현을 탐구하고, 장기 맥락 MLLM을 이해하기 위한 효과적인 실험 도구로 제시합니다.
Understanding how humans and artificial intelligence systems process complex narrative videos is a fundamental challenge at the intersection of neuroscience and machine learning. This study investigates how the temporal context length of video clips (3--12 s clips) and the narrative-task prompting shape brain-model alignment during naturalistic movie watching. Using fMRI recordings from participants viewing full-length movies, we examine how brain regions sensitive to narrative context dynamically represent information over varying timescales and how these neural patterns align with model-derived features. We find that increasing clip duration substantially improves brain alignment for multimodal large language models (MLLMs), whereas unimodal video models show little to no gain. Further, shorter temporal windows align with perceptual and early language regions, while longer windows preferentially align higher-order integrative regions, mirrored by a layer-to-cortex hierarchy in MLLMs. Finally, narrative-task prompts (multi-scene summary, narrative summary, character motivation, and event boundary detection) elicit task-specific, region-dependent brain alignment patterns and context-dependent shifts in clip-level tuning in higher-order regions. Together, our results position long-form narrative movies as a principled testbed for probing biologically relevant temporal integration and interpretable representations in long-context MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.