SemVideo: 계층적 의미 지침을 활용하여 뇌 활동으로부터 시청하는 내용을 재구성하는 방법
SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance
뇌 활동으로부터 동적인 시각적 경험을 재구성하는 것은 인간의 시각 인지 신경 메커니즘을 탐구하는 매력적인 방법입니다. 최근 fMRI 기반 이미지 재구성에 상당한 진전이 있었지만, 이러한 성공을 비디오 재구성에 적용하는 것은 여전히 중요한 과제입니다. 현재의 fMRI-to-비디오 재구성 방법은 일관성 없는 시각적 표현(특히 중요한 객체의 경우)으로 인해 프레임 간 불일치가 발생하고, 또한 시간적 일관성이 부족하여 움직임 불일치 또는 갑작스러운 프레임 전환이 발생하는 두 가지 주요 단점을 가지고 있습니다. 이러한 한계점을 해결하기 위해, 우리는 계층적 의미 정보를 활용하는 새로운 fMRI-to-비디오 재구성 프레임워크인 SemVideo를 제안합니다. SemVideo의 핵심은 SemMiner라는 계층적 지침 모듈로, 이는 원래 비디오 자극으로부터 세 가지 수준의 의미적 단서를 생성합니다. 즉, 정적인 앵커 설명, 움직임 중심 내러티브, 그리고 전체적인 요약입니다. 이러한 의미적 지침을 활용하여, SemVideo는 세 가지 주요 구성 요소로 구성됩니다. 첫째, SemMiner로부터 얻은 CLIP 스타일 임베딩과 fMRI 신호를 연결하는 Semantic Alignment Decoder입니다. 둘째, 새로운 삼분자 어텐션 퓨전 아키텍처를 사용하여 동적인 움직임 패턴을 재구성하는 Motion Adaptation Decoder입니다. 셋째, 계층적 의미 지침을 활용하여 비디오를 재구성하는 Conditional Video Render입니다. CC2017 및 HCP 데이터 세트에 대한 실험 결과는 SemVideo가 의미적 정렬 및 시간적 일관성 측면에서 뛰어난 성능을 보이며, fMRI-to-비디오 재구성에 있어 새로운 최고 수준을 달성했음을 보여줍니다.
Reconstructing dynamic visual experiences from brain activity provides a compelling avenue for exploring the neural mechanisms of human visual perception. While recent progress in fMRI-based image reconstruction has been notable, extending this success to video reconstruction remains a significant challenge. Current fMRI-to-video reconstruction approaches consistently encounter two major shortcomings: (i) inconsistent visual representations of salient objects across frames, leading to appearance mismatches; (ii) poor temporal coherence, resulting in motion misalignment or abrupt frame transitions. To address these limitations, we introduce SemVideo, a novel fMRI-to-video reconstruction framework guided by hierarchical semantic information. At the core of SemVideo is SemMiner, a hierarchical guidance module that constructs three levels of semantic cues from the original video stimulus: static anchor descriptions, motion-oriented narratives, and holistic summaries. Leveraging this semantic guidance, SemVideo comprises three key components: a Semantic Alignment Decoder that aligns fMRI signals with CLIP-style embeddings derived from SemMiner, a Motion Adaptation Decoder that reconstructs dynamic motion patterns using a novel tripartite attention fusion architecture, and a Conditional Video Render that leverages hierarchical semantic guidance for video reconstruction. Experiments conducted on the CC2017 and HCP datasets demonstrate that SemVideo achieves superior performance in both semantic alignment and temporal consistency, setting a new state-of-the-art in fMRI-to-video reconstruction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.