구체화된 AI를 위한 가산적 합성 잠재 행동 학습
Learning Additively Compositional Latent Actions for Embodied AI
잠재 행동 학습은 시각적 변화로부터 가짜 행동 레이블을 추론하여, 구체화된 AI를 위해 인터넷 규모의 비디오 데이터를 활용하는 방법을 제공합니다. 그러나 대부분의 방법은 물리적 움직임의 가산적, 합성적 구조를 인코딩하는 구조적 사전 지식 없이 잠재 행동을 학습합니다. 그 결과, 잠재 변수는 종종 관련 없는 장면 세부 정보나 미래 관찰에 대한 정보를 실제 상태 변화와 혼합하여 움직임의 크기를 잘못 조정합니다. 본 논문에서는 장면 단위의 가산적 합성 구조를 짧은 시간 범위 내에서 잠재 행동 공간에 적용하는 '가산적 합성 잠재 행동 모델 (AC-LAM)'을 소개합니다. 이러한 AC 제약 조건은 잠재 행동 공간에 단순한 대수적 구조(항등, 역, 순환 일관성)를 장려하고, 가산적으로 합성되지 않는 정보를 억제합니다. 실험 결과, AC-LAM은 더욱 구조화되고 움직임에 특화된 잠재 행동을 학습하며, 변위에 대한 정확한 보정을 제공하고, 다운스트림 정책 학습에 더 강력한 감독 신호를 제공하여 시뮬레이션 및 실제 테이블탑 작업에서 최첨단 LAM 모델보다 뛰어난 성능을 보입니다.
Latent action learning infers pseudo-action labels from visual transitions, providing an approach to leverage internet-scale video for embodied AI. However, most methods learn latent actions without structural priors that encode the additive, compositional structure of physical motion. As a result, latents often entangle irrelevant scene details or information about future observations with true state changes and miscalibrate motion magnitude. We introduce Additively Compositional Latent Action Model (AC-LAM), which enforces scene-wise additive composition structure over short horizons on the latent action space. These AC constraints encourage simple algebraic structure in the latent action space~(identity, inverse, cycle consistency) and suppress information that does not compose additively. Empirically, AC-LAM learns more structured, motion-specific, and displacement-calibrated latent actions and provides stronger supervision for downstream policy learning, outperforming state-of-the-art LAMs across simulated and real-world tabletop tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.