2601.02427v1 Jan 04, 2026 cs.CV

NitroGen: 범용 게임 에이전트를 위한 개방형 기반 모델

NitroGen: An Open Foundation Model for Generalist Gaming Agents

Loic Magne
Loic Magne
Citations: 1,132
h-index: 6
LinxiJimFan
LinxiJimFan
Citations: 1,361
h-index: 10
Anas Awadalla
Anas Awadalla
University of Washington
Citations: 1,696
h-index: 11
Guanzhi Wang
Guanzhi Wang
Citations: 177
h-index: 5
Yinzhen Xu
Yinzhen Xu
Citations: 1,409
h-index: 7
Joshua Belofsky
Joshua Belofsky
Citations: 14
h-index: 1
Fengyuan Hu
Fengyuan Hu
Citations: 1,266
h-index: 8
Joohwan Kim
Joohwan Kim
Citations: 459
h-index: 8
Ludwig Schmidt
Ludwig Schmidt
Citations: 421
h-index: 5
Georgia Gkioxari
Georgia Gkioxari
Citations: 179
h-index: 6
Jan Kautz
Jan Kautz
Citations: 13,060
h-index: 44
Yisong Yue
Yisong Yue
Citations: 249
h-index: 8
Yejin Choi
Yejin Choi
Citations: 497
h-index: 7
Yuke Zhu
Yuke Zhu
Citations: 1,669
h-index: 13

본 논문에서는 NitroGen을 소개합니다. NitroGen은 1,000개 이상의 게임에서 40,000시간 분량의 게임 플레이 영상으로 학습된, 범용 게임 에이전트를 위한 시각-행동 기반 모델입니다. NitroGen은 다음 세 가지 주요 요소를 포함합니다. 1) 공개적으로 사용 가능한 게임 플레이 영상에서 플레이어의 행동을 자동으로 추출하여 구축된 인터넷 규모의 시각-행동 데이터셋, 2) 게임 간 일반화 성능을 측정할 수 있는 멀티 게임 벤치마크 환경, 3) 대규모 행동 복제를 통해 학습된 통합 시각-행동 모델입니다. NitroGen은 3D 액션 게임의 전투, 2D 플랫포머 게임의 고정밀 제어, 절차적으로 생성된 세계에서의 탐험 등 다양한 영역에서 뛰어난 성능을 보입니다. 또한, NitroGen은 학습되지 않은 게임에도 효과적으로 적용되어, 처음부터 학습된 모델보다 최대 52%의 상대적인 작업 성공률 향상을 달성합니다. 본 연구에서는 데이터셋, 평가 도구, 모델 가중치를 공개하여 범용 임베디드 에이전트에 대한 연구를 발전시키고자 합니다.

Original Abstract

We introduce NitroGen, a vision-action foundation model for generalist gaming agents that is trained on 40,000 hours of gameplay videos across more than 1,000 games. We incorporate three key ingredients: 1) an internet-scale video-action dataset constructed by automatically extracting player actions from publicly available gameplay videos, 2) a multi-game benchmark environment that can measure cross-game generalization, and 3) a unified vision-action model trained with large-scale behavior cloning. NitroGen exhibits strong competence across diverse domains, including combat encounters in 3D action games, high-precision control in 2D platformers, and exploration in procedurally generated worlds. It transfers effectively to unseen games, achieving up to 52% relative improvement in task success rates over models trained from scratch. We release the dataset, evaluation suite, and model weights to advance research on generalist embodied agents.

15 Citations
1 Influential
22 Altmetric
127.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!