VideoWeave: 효율적인 비디오 이해를 위한 데이터 중심 접근 방식
VideoWeave: A Data-Centric Approach for Efficient Video Understanding
비디오-언어 모델의 학습은 일반적으로 긴 프레임 시퀀스 처리 비용이 높고, 어노테이션이 된 긴 비디오 데이터의 제한적인 가용성으로 인해 매우 비용이 많이 듭니다. 본 논문에서는 VideoWeave라는 간단하면서도 효과적인 접근 방식을 제시합니다. VideoWeave는 기존 데이터셋에서 가져온 짧은, 자막이 있는 비디오들을 연결하여 합성적인 긴 문맥의 학습 샘플을 구성함으로써 데이터 효율성을 향상시킵니다. VideoWeave는 모델 아키텍처나 최적화 목표를 변경하는 대신, 기존의 비디오-텍스트 쌍을 재구성하여 고정된 컴퓨팅 자원 내에서 시간적 다양성을 확장합니다. 우리는 다양한 데이터 구성 전략, 예를 들어 무작위 연결과 시각적으로 클러스터링된 연결, 그리고 자막 보강이 다운스트림 비디오 질의응답 성능에 미치는 영향을 체계적으로 연구했습니다. 동일한 컴퓨팅 제약 조건 하에서, VideoWeave를 사용하여 학습된 모델은 기존의 비디오 파인튜닝 방식보다 더 높은 정확도를 달성했습니다. 우리의 결과는 모델 아키텍처를 변경하는 것보다 학습 데이터를 재구성하는 것이 비디오-언어 모델을 학습시키는 간단하고 확장 가능한 방법이 될 수 있다는 것을 보여줍니다. 모든 실험에 대한 코드는 여기에서 확인할 수 있습니다.
Training video-language models is often prohibitively expensive due to the high cost of processing long frame sequences and the limited availability of annotated long videos. We present VideoWeave, a simple yet effective approach to improve data efficiency by constructing synthetic long-context training samples that splice together short, captioned videos from existing datasets. Rather than modifying model architectures or optimization objectives, VideoWeave reorganizes available video-text pairs to expand temporal diversity within fixed compute. We systematically study how different data composition strategies like random versus visually clustered splicing and caption enrichment affect downstream performance on downstream video question answering. Under identical compute constraints, models trained with VideoWeave achieve higher accuracy than conventional video finetuning. Our results highlight that reorganizing training data, rather than altering architectures, may offer a simple and scalable path for training video-language models. We link our code for all experiments here.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.