2603.06213v1 Mar 06, 2026 cs.CV

본론으로 바로: 체인-오브-이벤트(Chain-of-Events) 기반의 학습-불필요 다중 모달 요약

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

Lingyu Li
Lingyu Li
Citations: 41
h-index: 4
Jun Yu
Jun Yu
Citations: 7
h-index: 2
Qiang Huang
Qiang Huang
Harbin Institute of Technology (Shenzhen)
Citations: 686
h-index: 13
Xiaoxing You
Xiaoxing You
Citations: 10
h-index: 1
Xiaojun Chang
Xiaojun Chang
Citations: 44
h-index: 4

다중 모달 요약(MMS)은 비디오, 텍스트(스크립트), 이미지 등 다양한 정보를 이해하고 통합하여 간결한 텍스트 요약을 생성하는 것을 목표로 합니다. 그러나 기존 접근 방식은 여전히 다음과 같은 세 가지 주요 문제점을 가지고 있습니다. (1) 특정 도메인에 특화된 지도 학습에 대한 의존성, (2) 약한 상호 모달 연결을 통한 암묵적인 융합, (3) 이벤트 전환 없이 평탄한 시간 모델링. 이러한 문제점을 해결하기 위해, 본 논문에서는 계층적 이벤트 그래프(HEG)에 의해 안내되는 **Chain-of-Events**를 통해 구조화된 추론을 수행하는 학습-불필요 MMS 프레임워크인 **CoE**를 소개합니다. HEG는 텍스트 의미를 명시적인 이벤트 계층 구조로 인코딩하여 상호 모달 연결 및 시간적 추론을 지원합니다. 이러한 구조에 따라 **CoE**는 중요한 시각적 단서를 찾아내고, 이벤트의 발전과 인과 관계를 모델링하며, 경량화된 스타일 적응을 통해 도메인 정렬을 수행하여 결과를 개선합니다. 8개의 다양한 데이터 세트에 대한 광범위한 실험 결과, **CoE**는 최첨단 비디오 CoT 모델보다 일관되게 우수한 성능을 보이며, 평균적으로 **+3.04 ROUGE**, **+9.51 CIDEr**, **+1.88 BERTScore**의 성능 향상을 달성했습니다. 이는 **CoE**의 견고성, 해석 가능성 및 교차 도메인 일반화 능력을 보여줍니다. 본 논문의 코드는 https://github.com/youxiaoxing/CoE 에서 확인할 수 있습니다.

Original Abstract

Multimodal Summarization (MMS) aims to generate concise textual summaries by understanding and integrating information across videos, transcripts, and images. However, existing approaches still suffer from three main challenges: (1) reliance on domain-specific supervision, (2) implicit fusion with weak cross-modal grounding, and (3) flat temporal modeling without event transitions. To address these issues, we introduce **CoE**, a training-free MMS framework that performs structured reasoning through a **Chain-of-Events** guided by a Hierarchical Event Graph (HEG). The HEG encodes textual semantics into an explicit event hierarchy that scaffolds cross-modal grounding and temporal reasoning. Guided by this structure, **CoE** localizes key visual cues, models event evolution and causal transitions, and refines outputs via lightweight style adaptation for domain alignment. Extensive experiments on eight diverse datasets demonstrate that **CoE** consistently outperforms state-of-the-art video CoT baselines, achieving average gains of **+3.04 ROUGE**, **+9.51 CIDEr**, and **+1.88 BERTScore**, highlighting its robustness, interpretability, and cross-domain generalization. Our code is available at https://github.com/youxiaoxing/CoE.

0 Citations
0 Influential
26.5 Altmetric
132.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!