2601.21716v1 Jan 29, 2026 cs.CV

DreamActor-M2: 공간-시간적 맥락 학습을 통한 범용 캐릭터 이미지 애니메이션

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Tianshu Hu
Tianshu Hu
Citations: 72
h-index: 4
Mingshuang Luo
Mingshuang Luo
Citations: 219
h-index: 6
Yuan Zhang
Yuan Zhang
Citations: 0
h-index: 0
Mingyuan Gao
Mingyuan Gao
Citations: 23
h-index: 2
Shuang Liang
Shuang Liang
Citations: 33
h-index: 2
Zhengkun Rong
Zhengkun Rong
Citations: 62
h-index: 3
Yuxuan Luo
Yuxuan Luo
Citations: 45
h-index: 3
Ruibing Hou
Ruibing Hou
Citations: 90
h-index: 5
Hong Chang
Hong Chang
Citations: 85
h-index: 5
Yong Li
Yong Li
Citations: 223
h-index: 2

캐릭터 이미지 애니메이션은 드라이빙 시퀀스의 움직임을 정적인 참조 이미지에 전달하여 고품질 비디오를 생성하는 것을 목표로 합니다. 최근의 발전에도 불구하고, 기존 방법은 다음과 같은 두 가지 근본적인 문제점을 가지고 있습니다. (1) 최적의 움직임 주입 전략 부족으로 인해, 동일성 보존과 움직임 일관성 사이에 균형을 맞추기 어렵다는 "왕복 운동" 현상이 나타나고, (2) 명시적인 자세 정보(예: 스켈레톤)에 대한 과도한 의존성은 복잡한 역학을 제대로 반영하지 못하고, 비인간형 캐릭터에 대한 일반화 능력을 저해합니다. 이러한 문제점을 해결하기 위해, 우리는 움직임 조건을 맥락 학습 문제로 재정의하는 범용 애니메이션 프레임워크인 DreamActor-M2를 제안합니다. 우리의 접근 방식은 두 단계로 구성됩니다. 첫째, 참조 이미지의 외형 정보와 움직임 정보를 통합된 잠재 공간으로 연결하여, 모델이 생성 모델의 사전 지식을 활용하여 공간적 동일성과 시간적 역학을 동시에 고려할 수 있도록 합니다. 둘째, 자세에 의존적인 제어에서 직접적인, 엔드-투-엔드 RGB 기반 애니메이션으로의 원활한 전환을 가능하게 하는 자기 부트스트랩 데이터 합성 파이프라인을 도입합니다. 이 전략은 다양한 캐릭터와 움직임 시나리오에 대한 일반화 능력을 크게 향상시킵니다. 포괄적인 평가를 위해, 우리는 다양한 캐릭터 유형과 움직임 시나리오를 포함하는 다목적 벤치마크인 AW Bench를 추가로 소개합니다. 광범위한 실험 결과, DreamActor-M2는 최첨단 성능을 달성하며, 뛰어난 시각적 충실도와 강력한 교차 도메인 일반화 능력을 제공하는 것으로 나타났습니다. 프로젝트 페이지: https://grisoon.github.io/DreamActor-M2/

Original Abstract

Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!