NarraScore: 시각적 서사와 음악적 역동성을 계층적 감정 제어를 통해 연결
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control
장편 비디오에 대한 일관성 있는 배경 음악을 생성하는 것은 여전히 어려운 과제이며, 이는 계산적 확장성, 시간적 일관성, 그리고 무엇보다 중요한 서사적 논리의 변화에 대한 의미론적 이해 부족이라는 세 가지 주요 문제로 인해 어려움을 겪고 있습니다. 이러한 문제점을 해결하기 위해, 우리는 감정이 서사적 논리의 고밀도 압축이라는 핵심적인 아이디어에 기반한 계층적 프레임워크인 NarraScore를 제안합니다. NarraScore는 기존의 Vision-Language Model(VLM)을 연속적인 감정 센서로 활용하여, 고차원 시각 정보 스트림을 밀집되고 서사적 맥락을 반영하는 긍정-흥분(Valence-Arousal) 경로로 변환합니다. 구체적으로, NarraScore는 전체 구조와 지역적 역동성을 조화시키기 위해 Dual-Branch Injection 전략을 사용합니다. extit{Global Semantic Anchor}는 스타일적 안정성을 보장하고, extit{Token-Level Affective Adapter}는 요소별 잔차 주입을 통해 지역적인 긴장감을 조절합니다. 이러한 간결한 설계는 밀집된 Attention 메커니즘 및 아키텍처 복제의 병목 현상을 우회하여 데이터 부족으로 인한 과적합 위험을 효과적으로 완화합니다. 실험 결과, NarraScore는 뛰어난 일관성과 서사적 정렬성을 보이며, 동시에 미미한 계산 오버헤드를 갖춘 완전 자율적인 장편 비디오 배경 음악 생성 패러다임을 구축함을 보여줍니다.
Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a \textit{Global Semantic Anchor} ensures stylistic stability, while a surgical \textit{Token-Level Affective Adapter} modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.