NitroGen: 범용 게임 에이전트를 위한 개방형 기반 모델
NitroGen: An Open Foundation Model for Generalist Gaming Agents
본 논문에서는 NitroGen을 소개합니다. NitroGen은 1,000개 이상의 게임에서 40,000시간 분량의 게임 플레이 영상으로 학습된, 범용 게임 에이전트를 위한 시각-행동 기반 모델입니다. NitroGen은 다음 세 가지 주요 요소를 포함합니다. 1) 공개적으로 사용 가능한 게임 플레이 영상에서 플레이어의 행동을 자동으로 추출하여 구축된 인터넷 규모의 시각-행동 데이터셋, 2) 게임 간 일반화 성능을 측정할 수 있는 멀티 게임 벤치마크 환경, 3) 대규모 행동 복제를 통해 학습된 통합 시각-행동 모델입니다. NitroGen은 3D 액션 게임의 전투, 2D 플랫포머 게임의 고정밀 제어, 절차적으로 생성된 세계에서의 탐험 등 다양한 영역에서 뛰어난 성능을 보입니다. 또한, NitroGen은 학습되지 않은 게임에도 효과적으로 적용되어, 처음부터 학습된 모델보다 최대 52%의 상대적인 작업 성공률 향상을 달성합니다. 본 연구에서는 데이터셋, 평가 도구, 모델 가중치를 공개하여 범용 임베디드 에이전트에 대한 연구를 발전시키고자 합니다.
We introduce NitroGen, a vision-action foundation model for generalist gaming agents that is trained on 40,000 hours of gameplay videos across more than 1,000 games. We incorporate three key ingredients: 1) an internet-scale video-action dataset constructed by automatically extracting player actions from publicly available gameplay videos, 2) a multi-game benchmark environment that can measure cross-game generalization, and 3) a unified vision-action model trained with large-scale behavior cloning. NitroGen exhibits strong competence across diverse domains, including combat encounters in 3D action games, high-precision control in 2D platformers, and exploration in procedurally generated worlds. It transfers effectively to unseen games, achieving up to 52% relative improvement in task success rates over models trained from scratch. We release the dataset, evaluation suite, and model weights to advance research on generalist embodied agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.