FlowAct-R1: 상호작용이 가능한 휴머노이드 비디오 생성 연구
FlowAct-R1: Towards Interactive Humanoid Video Generation
상호작용이 가능한 휴머노이드 비디오 생성은 인간과 지속적이고 반응적으로 소통할 수 있는 생생한 시각적 에이전트를 합성하는 것을 목표로 합니다. 최근 비디오 합성 기술이 발전했지만, 기존 방법은 종종 높은 화질의 합성 결과와 실시간 상호작용 요구 사항 간의 균형을 맞추는 데 어려움을 겪습니다. 본 논문에서는 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 위해 특별히 설계된 프레임워크인 FlowAct-R1을 제안합니다. FlowAct-R1은 MMDiT 아키텍처를 기반으로 하며, 낮은 지연 시간으로 실시간 상호작용을 유지하면서 임의의 길이의 비디오를 스트리밍 방식으로 생성할 수 있도록 합니다. 우리는 오류 축적을 완화하고 지속적인 상호작용 과정에서 장기적인 시간적 일관성을 보장하기 위해 청크 단위의 확산 강제 전략과 새로운 자기 강제 변형을 도입했습니다. 효율적인 증류 및 시스템 수준의 최적화를 통해, 당사의 프레임워크는 480p 해상도에서 25fps의 안정적인 성능을 달성하며, 첫 프레임까지의 시간(TTFF)은 약 1.5초에 불과합니다. 제안된 방법은 전체 신체에 대한 포괄적이고 세밀한 제어를 제공하여, 에이전트가 다양한 행동 상태 간에 자연스럽게 전환할 수 있도록 합니다. 실험 결과는 FlowAct-R1이 뛰어난 행동의 생생함과 인지적 현실감을 제공하며, 다양한 캐릭터 스타일에 대한 강력한 일반화 능력을 갖추고 있음을 보여줍니다.
Interactive humanoid video generation aims to synthesize lifelike visual agents that can engage with humans through continuous and responsive video. Despite recent advances in video synthesis, existing methods often grapple with the trade-off between high-fidelity synthesis and real-time interaction requirements. In this paper, we propose FlowAct-R1, a framework specifically designed for real-time interactive humanoid video generation. Built upon a MMDiT architecture, FlowAct-R1 enables the streaming synthesis of video with arbitrary durations while maintaining low-latency responsiveness. We introduce a chunkwise diffusion forcing strategy, complemented by a novel self-forcing variant, to alleviate error accumulation and ensure long-term temporal consistency during continuous interaction. By leveraging efficient distillation and system-level optimizations, our framework achieves a stable 25fps at 480p resolution with a time-to-first-frame (TTFF) of only around 1.5 seconds. The proposed method provides holistic and fine-grained full-body control, enabling the agent to transition naturally between diverse behavioral states in interactive scenarios. Experimental results demonstrate that FlowAct-R1 achieves exceptional behavioral vividness and perceptual realism, while maintaining robust generalization across diverse character styles.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.