2604.02330v1 Apr 02, 2026 cs.CV

ActionParty: 생성형 비디오 게임에서의 다중 주체 액션 바인딩

ActionParty: Multi-Subject Action Binding in Generative Video Games

Sergey Tulyakov
Sergey Tulyakov
Citations: 906
h-index: 15
Alexander Pondaven
Alexander Pondaven
Citations: 44
h-index: 3
Ziyi Wu
Ziyi Wu
Citations: 2,604
h-index: 7
Igor Gilitschenski
Igor Gilitschenski
Citations: 543
h-index: 13
Philip Torr
Philip Torr
Citations: 420
h-index: 7
Fabio Pizzati
Fabio Pizzati
Citations: 343
h-index: 9
Aliaksandr Siarohin
Aliaksandr Siarohin
Citations: 5,894
h-index: 30

최근 비디오 디퓨전 기술의 발전으로, 상호 작용 환경을 시뮬레이션할 수 있는 "세계 모델" 개발이 가능해졌습니다. 그러나 이러한 모델은 대부분 단일 에이전트 환경에 국한되어 있으며, 장면 내에서 여러 에이전트를 동시에 제어하는 데 어려움을 겪습니다. 본 연구에서는 기존 비디오 디퓨전 모델의 근본적인 문제점인 액션 바인딩 문제를 해결하고자 합니다. 액션 바인딩은 특정 액션을 해당 주체와 연결하는 데 어려움을 겪는 문제입니다. 이를 위해, 생성형 비디오 게임을 위한 액션 제어 가능 다중 주체 세계 모델인 ActionParty를 제안합니다. ActionParty는 각 주체의 상태를 지속적으로 반영하는 잠재 변수인 주체 상태 토큰을 도입합니다. 공간 편향 메커니즘을 사용하여 상태 토큰과 비디오 잠재 변수를 동시에 모델링함으로써, 전체 비디오 프레임 렌더링과 개별 액션 제어 주체 업데이트를 분리합니다. 우리는 ActionParty를 Melting Pot 벤치마크에서 평가하여, 46개의 다양한 환경에서 최대 7명의 플레이어를 동시에 제어할 수 있는 최초의 비디오 세계 모델임을 입증했습니다. 실험 결과, 액션 추종 정확도와 주체 일관성 측면에서 상당한 개선이 있었으며, 복잡한 상호 작용을 통해 주체를 안정적으로 추적할 수 있음을 확인했습니다.

Original Abstract

Recent advances in video diffusion have enabled the development of "world models" capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene. In this work, we tackle a fundamental issue of action binding in existing video diffusion models, which struggle to associate specific actions with their corresponding subjects. For this purpose, we propose ActionParty, an action controllable multi-subject world model for generative video games. It introduces subject state tokens, i.e. latent variables that persistently capture the state of each subject in the scene. By jointly modeling state tokens and video latents with a spatial biasing mechanism, we disentangle global video frame rendering from individual action-controlled subject updates. We evaluate ActionParty on the Melting Pot benchmark, demonstrating the first video world model capable of controlling up to seven players simultaneously across 46 diverse environments. Our results show significant improvements in action-following accuracy and identity consistency, while enabling robust autoregressive tracking of subjects through complex interactions.

0 Citations
0 Influential
15 Altmetric
75.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!