2604.03340v1 Apr 03, 2026 cs.CV

구체화된 AI를 위한 가산적 합성 잠재 행동 학습

Learning Additively Compositional Latent Actions for Embodied AI

Chuheng Zhang
Chuheng Zhang
Citations: 35
h-index: 2
Alex Lamb
Alex Lamb
Citations: 54
h-index: 5
Jianyu Chen
Jianyu Chen
Citations: 471
h-index: 8
Hangxing Wei
Hangxing Wei
Citations: 30
h-index: 2
Xiaoyu Chen
Xiaoyu Chen
Citations: 90
h-index: 3
Tim Pearce
Tim Pearce
Citations: 67
h-index: 3
Li Zhao
Li Zhao
Citations: 145
h-index: 5
Jiang Bian
Jiang Bian
Citations: 240
h-index: 6

잠재 행동 학습은 시각적 변화로부터 가짜 행동 레이블을 추론하여, 구체화된 AI를 위해 인터넷 규모의 비디오 데이터를 활용하는 방법을 제공합니다. 그러나 대부분의 방법은 물리적 움직임의 가산적, 합성적 구조를 인코딩하는 구조적 사전 지식 없이 잠재 행동을 학습합니다. 그 결과, 잠재 변수는 종종 관련 없는 장면 세부 정보나 미래 관찰에 대한 정보를 실제 상태 변화와 혼합하여 움직임의 크기를 잘못 조정합니다. 본 논문에서는 장면 단위의 가산적 합성 구조를 짧은 시간 범위 내에서 잠재 행동 공간에 적용하는 '가산적 합성 잠재 행동 모델 (AC-LAM)'을 소개합니다. 이러한 AC 제약 조건은 잠재 행동 공간에 단순한 대수적 구조(항등, 역, 순환 일관성)를 장려하고, 가산적으로 합성되지 않는 정보를 억제합니다. 실험 결과, AC-LAM은 더욱 구조화되고 움직임에 특화된 잠재 행동을 학습하며, 변위에 대한 정확한 보정을 제공하고, 다운스트림 정책 학습에 더 강력한 감독 신호를 제공하여 시뮬레이션 및 실제 테이블탑 작업에서 최첨단 LAM 모델보다 뛰어난 성능을 보입니다.

Original Abstract

Latent action learning infers pseudo-action labels from visual transitions, providing an approach to leverage internet-scale video for embodied AI. However, most methods learn latent actions without structural priors that encode the additive, compositional structure of physical motion. As a result, latents often entangle irrelevant scene details or information about future observations with true state changes and miscalibrate motion magnitude. We introduce Additively Compositional Latent Action Model (AC-LAM), which enforces scene-wise additive composition structure over short horizons on the latent action space. These AC constraints encourage simple algebraic structure in the latent action space~(identity, inverse, cycle consistency) and suppress information that does not compose additively. Empirically, AC-LAM learns more structured, motion-specific, and displacement-calibrated latent actions and provides stronger supervision for downstream policy learning, outperforming state-of-the-art LAMs across simulated and real-world tabletop tasks.

1 Citations
0 Influential
4 Altmetric
21.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!