LVSum: 타임스탬프 정보를 활용한 장편 비디오 요약 벤치마크
LVSum: A Benchmark for Timestamp-Aware Long Video Summarization
장편 비디오 요약은 현재의 멀티모달 대규모 언어 모델(MLLM)에게 상당한 어려움을 제시하며, 특히 긴 시간 동안의 시간적 일관성을 유지하고 의미적으로나 시간적으로 정확한 요약을 생성하는 데 어려움이 있습니다. 본 연구에서는 시간적 정렬을 세밀하게 평가하기 위해 설계된 인간이 직접 작성한 벤치마크인 LVSum을 소개합니다. LVSum은 13개 분야의 다양한 장편 비디오로 구성되어 있으며, 각 비디오는 정확한 시간적 참조를 포함하는 인간이 작성한 요약과 함께 제공됩니다. 우리는 독점적 및 오픈 소스 MLLM을 LVSum 데이터셋에서 종합적으로 평가하고, 새로운 LLM 기반 지표를 사용하여 콘텐츠 관련성과 모달리티 일관성을 평가하는 동시에 표준 평가 지표도 사용했습니다. 우리의 실험 결과, 기존 MLLM에서 시간적 이해 능력에 있어 체계적인 격차가 존재하며, 이는 장편 비디오 요약에서 시간적 추론 능력을 향상시키는 새로운 기반을 제시합니다.
Long video summarization presents significant challenges for current multimodal large language models (MLLMs), particularly in maintaining temporal fidelity over extended durations and producing summaries that are both semantically and temporally grounded. In this work, we present LVSum, a human-annotated benchmark designed specifically for evaluating long video summarization with fine-grained temporal alignment. LVSum comprises diverse long-form videos across 13 domains, each paired with human-generated summaries containing precise temporal references. We conduct a comprehensive evaluation of both proprietary and open-source MLLMs on LVSum, assessing performance using newly introduced LLM-based metrics for content relevance and modality coherence, alongside standard evaluation metrics. Our experiments reveal systematic gaps in temporal understanding among existing MLLMs and offer insights that establish a new foundation for advancing temporal reasoning in long video summarization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.