2601.21716v1 Jan 29, 2026 cs.CV

DreamActor-M2: 공간-시간적 맥락 학습을 통한 범용 캐릭터 이미지 애니메이션

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Tianshu Hu
Tianshu Hu
Citations: 107
h-index: 4
Mingshuang Luo
Mingshuang Luo
Citations: 245
h-index: 7
Yuan Zhang
Yuan Zhang
Citations: 4
h-index: 1
Mingyuan Gao
Mingyuan Gao
Citations: 41
h-index: 3
Shuang Liang
Shuang Liang
Citations: 51
h-index: 2
Zhengkun Rong
Zhengkun Rong
Citations: 88
h-index: 3
Yuxuan Luo
Yuxuan Luo
Citations: 60
h-index: 3
Ruibing Hou
Ruibing Hou
Citations: 144
h-index: 6
Hong Chang
Hong Chang
Citations: 123
h-index: 5
Yong Li
Yong Li
Citations: 465
h-index: 4

캐릭터 이미지 애니메이션은 드라이빙 시퀀스의 움직임을 정적인 참조 이미지에 전달하여 고품질 비디오를 생성하는 것을 목표로 합니다. 최근의 발전에도 불구하고, 기존 방법은 다음과 같은 두 가지 근본적인 문제점을 가지고 있습니다. (1) 최적의 움직임 주입 전략 부족으로 인해, 동일성 보존과 움직임 일관성 사이에 균형을 맞추기 어렵다는 "왕복 운동" 현상이 나타나고, (2) 명시적인 자세 정보(예: 스켈레톤)에 대한 과도한 의존성은 복잡한 역학을 제대로 반영하지 못하고, 비인간형 캐릭터에 대한 일반화 능력을 저해합니다. 이러한 문제점을 해결하기 위해, 우리는 움직임 조건을 맥락 학습 문제로 재정의하는 범용 애니메이션 프레임워크인 DreamActor-M2를 제안합니다. 우리의 접근 방식은 두 단계로 구성됩니다. 첫째, 참조 이미지의 외형 정보와 움직임 정보를 통합된 잠재 공간으로 연결하여, 모델이 생성 모델의 사전 지식을 활용하여 공간적 동일성과 시간적 역학을 동시에 고려할 수 있도록 합니다. 둘째, 자세에 의존적인 제어에서 직접적인, 엔드-투-엔드 RGB 기반 애니메이션으로의 원활한 전환을 가능하게 하는 자기 부트스트랩 데이터 합성 파이프라인을 도입합니다. 이 전략은 다양한 캐릭터와 움직임 시나리오에 대한 일반화 능력을 크게 향상시킵니다. 포괄적인 평가를 위해, 우리는 다양한 캐릭터 유형과 움직임 시나리오를 포함하는 다목적 벤치마크인 AW Bench를 추가로 소개합니다. 광범위한 실험 결과, DreamActor-M2는 최첨단 성능을 달성하며, 뛰어난 시각적 충실도와 강력한 교차 도메인 일반화 능력을 제공하는 것으로 나타났습니다. 프로젝트 페이지: https://grisoon.github.io/DreamActor-M2/

Original Abstract

Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/

1 Citations
1 Influential
3.5 Altmetric
20.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!