DanceCrafter: 안무 구문 기반의 정밀한 텍스트 기반 춤 생성
DanceCrafter: Fine-Grained Text-Driven Controllable Dance Generation via Choreographic Syntax
텍스트 기반의 제어 가능한 춤 생성은 고품질 데이터의 심각한 부족과 복잡한 안무를 표현하는 고유한 어려움으로 인해 아직 활발히 연구되지 않았습니다. 춤은 복잡한 공간 역학, 강한 방향성, 그리고 신체 부위의 서로 독립적인 움직임 때문에 특징을 파악하기가 특히 어렵습니다. 이러한 문제점을 해결하기 위해, 우리는 춤 연구, 인체 해부학, 그리고 생체역학의 원리를 활용하여 새로운 이론적 프레임워크인 '안무 구문(Choreographic Syntax)'과 맞춤형 어노테이션 시스템을 제안합니다. 이 구문에 기반하여, 우리는 전문적인 춤 아카이브와 고정밀 모션 캡처 데이터를 결합하여 현재까지 가장 정밀한 춤 데이터셋인 'DanceFlow'를 구축했습니다. DanceFlow는 41시간의 고품질 모션 데이터와 634만 단어에 달하는 상세한 설명을 포함하고 있습니다. 모델 수준에서, 우리는 Momentum Human Rig을 기반으로 구축된 맞춤형 모션 트랜스포머인 'DanceCrafter'를 소개합니다. 최적화의 불안정성을 해결하기 위해, 우리는 연속적인 다양체 모션 표현과 하이브리드 정규화 전략을 사용합니다. 또한, 신체 부위의 독립적인 특성을 명시적으로 제어하기 위한 해부학적 지식을 반영한 손실 함수를 설계했습니다. 이러한 개선 사항들을 통해 DanceCrafter는 복잡한 춤 시퀀스를 높은 충실도와 안정성으로 생성할 수 있습니다. 광범위한 평가와 사용자 연구를 통해, DanceCrafter는 모션 품질, 정밀한 제어 가능성, 그리고 생성의 자연스러움 측면에서 최첨단 성능을 보여줍니다.
Text-driven controllable dance generation remains under-explored, primarily due to the severe scarcity of high-quality datasets and the inherent difficulty of articulating complex choreographies. Characterizing dance is particularly challenging owing to its intricate spatial dynamics, strong directionality, and the highly decoupled movements of distinct body parts. To overcome these bottlenecks, we bridge principles from dance studies, human anatomy, and biomechanics to propose \textit{Choreographic Syntax}, a novel theoretical framework with a tailored annotation system. Grounded in this syntax, we combine professional dance archives with high-fidelity motion capture data to construct \textbf{DanceFlow}, the most fine-grained dance dataset to date. It encompasses 41 hours of high-quality motions paired with 6.34 million words of detailed descriptions. At the model level, we introduce \textbf{DanceCrafter}, a tailored motion transformer built upon the Momentum Human Rig. To circumvent optimization instabilities, we construct a continuous manifold motion representation paired with a hybrid normalization strategy. Furthermore, we design an anatomy-aware loss to explicitly regulate the decoupled nature of body parts. Together, these adaptations empower DanceCrafter to achieve the high-fidelity and stable generation of complex dance sequences. Extensive evaluations and user studies demonstrate our state-of-the-art performance in motion quality, fine-grained controllability, and generation naturalness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.