샘플이 아닌 작업의 확장: 다중 작업 모델 기반 강화 학습을 통한 휴머노이드 제어 마스터링
Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning
다양한 기술을 습득할 수 있는 범용 로봇 개발은 임베디드 AI 분야의 핵심 과제입니다. 최근 연구들은 모델 파라미터와 오프라인 데이터셋의 확장에 초점을 맞추고 있지만, 이러한 접근 방식은 로봇 공학 분야에서 활동적인 상호 작용을 필요로 하는 학습 과정에 한계가 있습니다. 우리는 효과적인 온라인 학습이 작업당 샘플 수보다는 extit{작업의 수}를 확장해야 한다고 주장합니다. 이러한 방식은 모델 기반 강화 학습(MBRL)의 구조적 이점을 드러냅니다. 물리적 역학은 작업에 관계없이 불변적이므로, 공유된 세계 모델은 다중 작업 경험을 통합하여 강력하고 작업에 독립적인 표현을 학습할 수 있습니다. 반면, 모델 기반 학습 방법은 유사한 상태에서 상반되는 동작을 요구하는 작업들로 인해 기울기 간섭 문제를 겪습니다. 따라서 작업 다양성은 MBRL의 정규화 역할을 하여 역학 학습과 샘플 효율성을 향상시킵니다. 우리는 이러한 아이디어를 extbf{EfficientZero-Multitask (EZ-M)}, 즉 샘플 효율적인 다중 작업 MBRL 알고리즘을 통해 구현했습니다. extbf{HumanoidBench}, 즉 어려운 전신 제어 벤치마크에서 EZ-M은 강력한 기준 모델보다 훨씬 높은 샘플 효율성으로 최첨단 성능을 달성했으며, 극단적인 파라미터 확장 없이 이러한 결과를 얻었습니다. 이러한 결과는 작업 확장이 확장 가능한 로봇 학습의 중요한 요소임을 입증합니다. 프로젝트 웹사이트는 [https://yewr.github.io/ez_m/](https://yewr.github.io/ez_m/) 에서 확인할 수 있습니다.
Developing generalist robots capable of mastering diverse skills remains a central challenge in embodied AI. While recent progress emphasizes scaling model parameters and offline datasets, such approaches are limited in robotics, where learning requires active interaction. We argue that effective online learning should scale the \emph{number of tasks}, rather than the number of samples per task. This regime reveals a structural advantage of model-based reinforcement learning (MBRL). Because physical dynamics are invariant across tasks, a shared world model can aggregate multi-task experience to learn robust, task-agnostic representations. In contrast, model-free methods suffer from gradient interference when tasks demand conflicting actions in similar states. Task diversity therefore acts as a regularizer for MBRL, improving dynamics learning and sample efficiency. We instantiate this idea with \textbf{EfficientZero-Multitask (EZ-M)}, a sample-efficient multi-task MBRL algorithm for online learning. Evaluated on \textbf{HumanoidBench}, a challenging whole-body control benchmark, EZ-M achieves state-of-the-art performance with significantly higher sample efficiency than strong baselines, without extreme parameter scaling. These results establish task scaling as a critical axis for scalable robotic learning. The project website is available \href{https://yewr.github.io/ez_m/}{here}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.