2602.00608v1 Jan 31, 2026 cs.AI

확장 가능한 생성형 게임 엔진: 하드웨어-알고리즘 공동 설계를 통한 해상도의 장벽 극복

Scalable Generative Game Engine: Breaking the Resolution Wall via Hardware-Algorithm Co-Design

Xuchen Li
Xuchen Li
Citations: 11
h-index: 1
Wei Zeng
Wei Zeng
Citations: 17
h-index: 2
Ruili Feng
Ruili Feng
Citations: 21
h-index: 2
Zhen Liu
Zhen Liu
Citations: 32
h-index: 3
Fengwei An
Fengwei An
Citations: 19
h-index: 2
Jian Zhao
Jian Zhao
Citations: 249
h-index: 6

실시간 생성형 게임 엔진은 기존의 그래픽 파이프라인을 신경망 월드 모델로 대체할 것을 약속하며, 대화형 시뮬레이션 분야의 패러다임 전환을 제시합니다. 그러나 기존 접근 방식들은 근본적으로 '메모리 장벽(Memory Wall)'에 의해 제한되어 있어, 실제 배포가 저해상도(예: 64x64)에 국한되는 한계가 있습니다. 본 논문은 확장 가능한 '하드웨어-알고리즘 공동 설계' 프레임워크를 도입하여 생성형 모델과 고해상도 신경망 시뮬레이션 간의 격차를 해소합니다. 우리는 고해상도 생성 과정이 월드 모델은 연산 집약적(compute-bound)인 반면 디코더는 메모리 집약적(memory-bound)이라는 결정적인 리소스 불일치 문제를 겪고 있음을 확인했습니다. 이를 해결하기 위해 우리는 AI 가속기 클러스터 전반에 걸쳐 이러한 구성 요소를 지능적으로 분리하는 이기종 아키텍처를 제안합니다. 우리 시스템은 세 가지 핵심 혁신을 특징으로 합니다. (1) 시퀀스 병렬성 제약 조건 하에서 처리량을 최적화하는 비대칭 리소스 할당 전략, (2) 오프칩(off-chip) 대역폭 사용을 최소화하는 메모리 중심 연산자 융합 기법, (3) 시간적 중복성을 활용하여 지연 시간을 은폐하는 매니폴드 인식 잠재 외삽(manifold-aware latent extrapolation) 메커니즘입니다. 우리는 프로그래밍 가능한 AI 가속기 클러스터에서 본 접근 방식을 검증하였으며, 기존 베이스라인 대비 픽셀 처리량이 50배 증가한 720x480 해상도의 실시간 생성을 구현했습니다. 연속적인 3D 레이싱과 이산적인 2D 플랫폼 게임 벤치마크에서 평가된 우리 시스템은 각각 26.4 FPS와 48.3 FPS의 부드러운 성능을 보여주었으며, 상각 유효 지연 시간은 2.7ms를 기록했습니다. 본 연구는 아키텍처 공동 설계를 통해 '메모리 장벽'을 해결하는 것이 단순한 최적화가 아니라, 고충실도의 반응형 신경망 게임 플레이를 가능하게 하는 필수 전제 조건임을 입증합니다.

Original Abstract

Real-time generative game engines represent a paradigm shift in interactive simulation, promising to replace traditional graphics pipelines with neural world models. However, existing approaches are fundamentally constrained by the ``Memory Wall,'' restricting practical deployments to low resolutions (e.g., $64 \times 64$). This paper bridges the gap between generative models and high-resolution neural simulations by introducing a scalable \textit{Hardware-Algorithm Co-Design} framework. We identify that high-resolution generation suffers from a critical resource mismatch: the World Model is compute-bound while the Decoder is memory-bound. To address this, we propose a heterogeneous architecture that intelligently decouples these components across a cluster of AI accelerators. Our system features three core innovations: (1) an asymmetric resource allocation strategy that optimizes throughput under sequence parallelism constraints; (2) a memory-centric operator fusion scheme that minimizes off-chip bandwidth usage; and (3) a manifold-aware latent extrapolation mechanism that exploits temporal redundancy to mask latency. We validate our approach on a cluster of programmable AI accelerators, enabling real-time generation at $720 \times 480$ resolution -- a $50\times$ increase in pixel throughput over prior baselines. Evaluated on both continuous 3D racing and discrete 2D platformer benchmarks, our system delivers fluid 26.4 FPS and 48.3 FPS respectively, with an amortized effective latency of 2.7 ms. This work demonstrates that resolving the ``Memory Wall'' via architectural co-design is not merely an optimization, but a prerequisite for enabling high-fidelity, responsive neural gameplay.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!