2602.05966v1 Feb 05, 2026 cs.CV

LSA: 지역별 의미 정렬을 통한 교통 영상 생성 시 시간적 일관성 향상

LSA: Localized Semantic Alignment for Enhancing Temporal Consistency in Traffic Video Generation

M. Karimov
M. Karimov
Citations: 0
h-index: 0
Teodora Spasojevic
Teodora Spasojevic
Citations: 0
h-index: 0
Markus Braun
Markus Braun
Citations: 6
h-index: 1
Julian Wiederer
Julian Wiederer
Citations: 186
h-index: 6
Vasileios Belagiannis
Vasileios Belagiannis
Citations: 74
h-index: 5
Marc Pollefeys
Marc Pollefeys
Citations: 705
h-index: 13

제어 가능한 영상 생성은 자율 주행 분야에서 다재다능한 도구로 활용되며, 교통 시나리오를 현실적으로 합성하는 데 기여합니다. 그러나 기존 방법은 추론 시 제어 신호에 의존하여 생성 모델이 동적 객체의 시간적 일관성을 갖도록 유도하며, 이는 확장 가능하고 일반화된 데이터 엔진으로서의 활용성을 제한합니다. 본 연구에서는 사전 학습된 영상 생성 모델을 미세 조정하는 간단하면서도 효과적인 프레임워크인 지역별 의미 정렬 (Localized Semantic Alignment, LSA)을 제안합니다. LSA는 실제 영상과 생성된 영상 클립 간의 의미적 특징을 정렬하여 시간적 일관성을 향상시킵니다. 구체적으로, 실제 영상과 생성된 영상 클립에서 동적 객체 주변에 위치한 영역에 대해, 상용 특징 추출 모델의 출력을 비교하여 의미적 특징 일관성 손실을 유도합니다. 우리는 이 손실과 표준 디퓨전 손실을 결합하여 기본 모델을 미세 조정합니다. 우리의 새로운 손실 함수로 단일 에폭 동안 미세 조정된 모델은 일반적인 영상 생성 평가 지표에서 기존 모델보다 우수한 성능을 보입니다. 생성된 영상의 시간적 일관성을 추가적으로 검증하기 위해 객체 검출 작업에서 사용되는 mAP 및 mIoU라는 두 가지 추가 지표를 활용했습니다. nuScenes 및 KITTI 데이터 세트에 대한 광범위한 실험 결과는 LSA가 추론 시 외부 제어 신호나 추가적인 계산 오버헤드 없이 영상 생성의 시간적 일관성을 향상시키는 데 효과적임을 보여줍니다.

Original Abstract

Controllable video generation has emerged as a versatile tool for autonomous driving, enabling realistic synthesis of traffic scenarios. However, existing methods depend on control signals at inference time to guide the generative model towards temporally consistent generation of dynamic objects, limiting their utility as scalable and generalizable data engines. In this work, we propose Localized Semantic Alignment (LSA), a simple yet effective framework for fine-tuning pre-trained video generation models. LSA enhances temporal consistency by aligning semantic features between ground-truth and generated video clips. Specifically, we compare the output of an off-the-shelf feature extraction model between the ground-truth and generated video clips localized around dynamic objects inducing a semantic feature consistency loss. We fine-tune the base model by combining this loss with the standard diffusion loss. The model fine-tuned for a single epoch with our novel loss outperforms the baselines in common video generation evaluation metrics. To further test the temporal consistency in generated videos we adapt two additional metrics from object detection task, namely mAP and mIoU. Extensive experiments on nuScenes and KITTI datasets show the effectiveness of our approach in enhancing temporal consistency in video generation without the need for external control signals during inference and any computational overheads.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!