2605.14211v1 May 14, 2026 cs.AI

ASH: 자기 개선을 통해 학습하는 에이전트

ASH: Agents that Self-Hone via Embodied Learning

Benjamin Schneider
Benjamin Schneider
Citations: 73
h-index: 4
Xavier Schneider
Xavier Schneider
Citations: 0
h-index: 0
Victor Zhong
Victor Zhong
Citations: 25
h-index: 2
Sunan Sun
Sunan Sun
Citations: 21
h-index: 3

장기적인 의사결정이 필요한 로봇 제어는 인공지능 분야의 근본적인 과제이며, 현재의 방법들은 대부분 수동으로 설계된 보상 체계나 액션 레이블이 부착된 데모에 의존하는데, 이러한 방식들은 확장성이 부족합니다. 본 논문에서는 ASH라는 에이전트 시스템을 소개합니다. ASH는 보상 설계나 전문가 주석 없이, 레이블이 없는, 노이즈가 포함된 인터넷 비디오로부터 에이전트의 정책을 학습합니다. ASH는 자기 개선 루프를 따릅니다. 에이전트가 특정 문제에 막히면, ASH는 자신의 실행 경로로부터 역동 모델(Inverse Dynamics Model, IDM)을 학습하고, 이 IDM을 사용하여 관련 인터넷 비디오로부터 지도 정보를 추출합니다. ASH는 비지도 학습을 사용하여 대규모 인터넷 비디오에서 중요한 순간들을 식별하고, 이를 장기적인 기억으로 저장함으로써, 장기적인 문제를 해결할 수 있습니다. 우리는 ASH를 두 가지 상호 보완적인 환경에서 평가했습니다. 이 환경들은 수 시간 동안의 계획을 요구하며, 각각은 턴 기반 RPG인 Pokemon Emerald와 실시간 액션 어드벤처 게임인 The Legend of Zelda: The Minish Cap입니다. 두 게임 모두에서, 행동 복제(behavioral cloning), 검색 증강(retrieval-augmented), 그리고 사전 학습 모델(zero-shot foundation model) 기반의 비교 모델들은 성능이 정체되는 반면, ASH는 8시간 동안 지속적으로 발전합니다. ASH는 Pokemon Emerald에서 평균적으로 11.2/12개의 목표 지점에 도달하고, The Legend of Zelda에서 9.9/12개의 목표 지점에 도달했습니다. 반면, 가장 성능이 좋은 비교 모델은 두 환경 모두에서 평균적으로 6.5/12개와 6.0/12개의 목표 지점에서 멈췄습니다. 우리는 자기 개선 에이전트가 장기적인 로봇 제어를 위한 확장 가능한 방법임을 보여줍니다.

Original Abstract

Long-horizon embodied tasks remain a fundamental challenge in AI, as current methods rely on hand-engineered rewards or action-labeled demonstrations, neither of which scales. We introduce ASH, an agentic system that learns an embodied policy from unlabeled, noisy internet video, without reward shaping or expert annotation. ASH follows a self-improvement loop; when it gets stuck, ASH learns an Inverse Dynamics Model (IDM) from its own trajectories, and uses its IDM to extract supervision from relevant internet video. ASH uses unsupervised learning to identify key moments from large-scale internet video and retains them as long-term memory -- allowing it to tackle long-horizon problems. We evaluate ASH on two complementary environments demanding multi-hour planning: Pokemon Emerald, a turn-based RPG, and The Legend of Zelda: The Minish Cap, a real-time action-adventure game. In both games, behavioral cloning, retrieval-augmented and zero-shot foundation-model baselines plateau, while ASH sustains progression across our 8-hour evaluation. ASH reaches an average of $11.2/12$ milestones in Pokemon Emerald and $9.9/12$ in Legend of Zelda, while the strongest baseline gets stuck in both environments at an average of $6.5/12$ and $6.0/12$ milestones, respectively. We demonstrate that self-improving agents are a scalable recipe for long-horizon embodied learning.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!