DATAREEL: 애니메이션을 활용한 자동 데이터 기반 비디오 스토리 생성 시스템
DATAREEL: Automated Data-Driven Video Story Generation with Animations
데이터 비디오는 애니메이션과 차트 중심 시각화 요소를 활용하여 동기화된 내레이션을 제공하는 강력한 시각적 데이터 스토리텔링 매체입니다. 저널리즘, 교육, 공공 커뮤니케이션 등 다양한 분야에서 널리 사용되며, 복잡한 데이터를 명확하고 흥미로운 시각적 설명으로 전달하여 청중의 이해를 돕습니다. 데이터 기반 비디오 스토리 생성은 시각적 표현, 시간적 흐름, 내레이션의 정교한 조율과 시각화 디자인, 애니메이션, 비디오 편집 도구에 대한 전문 지식이 필요하므로 여전히 어려운 과제입니다. 최근의 대규모 언어 모델 발전은 이 과정을 자동화할 수 있는 새로운 기회를 제공하지만, 현재는 애니메이션 기반 시각화 스토리텔링 모델을 엄격하게 평가할 수 있는 벤치마크가 존재하지 않습니다. 이러한 격차를 해소하기 위해, 실제 사례 328개를 포함하는 자동 데이터 기반 비디오 스토리 생성 벤치마크인 DataReel을 소개합니다. 각 스토리에는 구조화된 데이터, 차트 시각화, 내레이션 스크립트가 포함되어 있어 모델이 애니메이션 데이터 비디오 스토리를 생성하는 능력을 체계적으로 평가할 수 있습니다. 또한, 인간의 스토리텔링 과정을 반영하는 계획, 생성, 검증 단계로 작업을 분해하는 다중 에이전트 프레임워크를 제안합니다. 실험 결과, 제안하는 다중 에이전트 접근 방식은 자동 및 인간 평가 모두에서 직접 프롬프트 기반의 기존 방법보다 우수한 성능을 보였으며, 애니메이션, 내레이션, 시각적 강조의 조율에 여전히 어려움이 존재한다는 것을 보여줍니다. DataReel은 https://github.com/vis-nlp/DataReel 에서 제공됩니다.
Data videos are a powerful medium for visual data based storytelling, combining animated, chart-centric visualizations with synchronized narration. Widely used in journalism, education, and public communication, they help audiences understand complex data through clear and engaging visual explanations. Despite their growing impact, generating data-driven video stories remains challenging, as it requires careful coordination of visual encoding, temporal progression, and narration and substantial expertise in visualization design, animation, and video-editing tools. Recent advances in large language models offer new opportunities to automate this process; however, there is currently no benchmark for rigorously evaluating models on animated visualization-based video storytelling. To address this gap, we introduce DataReel, a benchmark for automated data-driven video story generation comprising 328 real-world stories. Each story pairs structured data, a chart visualization, and a narration transcript, enabling systematic evaluation of models' abilities to generate animated data video stories. We further propose a multi-agent framework that decomposes the task into planning, generation, and verification stages, mirroring key aspects of the human storytelling process. Experiments show that this multi-agent approach outperforms direct prompting baselines under both automatic and human evaluations, while revealing persistent challenges in coordinating animation, narration, and visual emphasis. We release DataReel at https://github.com/vis-nlp/DataReel.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.