ActCam: 비디오 생성 시스템을 위한 제로샷 조인트 카메라 및 3D 모션 제어
ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation
예술적 응용 분야에서 비디오 생성은 배우의 움직임과 카메라 트래커리를 포함한, 성능과 촬영 기술 모두에 대한 정밀한 제어를 요구합니다. 본 논문에서는 ActCam을 제시합니다. ActCam은 제로샷 방식으로, 드라이빙 비디오에서 캐릭터의 움직임을 새로운 장면으로 전이하고, 프레임별로 카메라의 내재적 및 외재적 파라미터를 제어할 수 있는 비디오 생성 방법입니다. ActCam은 장면 깊이와 캐릭터 포즈를 조건으로 사용하는 사전 학습된 이미지-투-비디오 확산 모델을 기반으로 합니다. 움직이는 캐릭터가 있는 소스 비디오와 목표 카메라 움직임을 입력으로 받아, ActCam은 프레임 간에 기하학적으로 일관성을 유지하는 포즈 및 깊이 조건을 생성합니다. 이후, ActCam은 두 단계의 조건 부여 일정을 가진 단일 샘플링 프로세스를 실행합니다. 초기 디노이징 단계에서는 포즈와 희소 깊이를 모두 사용하여 장면 구조를 강제하고, 이후 깊이를 제거하고 포즈만으로 가이드하여 과도한 제약 없이 고주파 디테일을 개선합니다. ActCam은 다양한 캐릭터 움직임과 어려운 시점 변화를 포함하는 여러 벤치마크에서 평가되었습니다. 실험 결과, ActCam은 포즈만 제어하는 방식 및 다른 포즈 및 카메라 제어 방식에 비해 카메라 준수성 및 모션 충실도를 향상시키며, 특히 큰 시점 변화가 있는 경우 인간 평가에서 더 선호되는 것으로 나타났습니다. 본 연구 결과는 신중한 카메라 일관성 조건 부여 및 단계별 가이드가 훈련 없이 강력한 조인트 카메라 및 모션 제어를 가능하게 할 수 있음을 보여줍니다. 프로젝트 페이지: https://elkhomar.github.io/actcam/.
For artistic applications, video generation requires fine-grained control over both performance and cinematography, i.e., the actor's motion and the camera trajectory. We present ActCam, a zero-shot method for video generation that jointly transfers character motion from a driving video into a new scene and enables per-frame control of intrinsic and extrinsic camera parameters. ActCam builds on any pretrained image-to-video diffusion model that accepts conditioning in terms of scene depth and character pose. Given a source video with a moving character and a target camera motion, ActCam generates pose and depth conditions that remain geometrically consistent across frames. We then run a single sampling process with a two-phase conditioning schedule: early denoising steps condition on both pose and sparse depth to enforce scene structure, after which depth is dropped and pose-only guidance refines high-frequency details without over-constraining the generation. We evaluate ActCam on multiple benchmarks spanning diverse character motions and challenging viewpoint changes. We find that, compared to pose-only control and other pose and camera methods, ActCam improves camera adherence and motion fidelity, and is preferred in human evaluations, especially under large viewpoint changes. Our results highlight that careful camera-consistent conditioning and staged guidance can enable strong joint camera and motion control without training. Project page: https://elkhomar.github.io/actcam/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.