2605.15153v1 May 14, 2026 cs.RO

Pelican-Unified 1.0: 이해, 추론, 상상 및 행동을 위한 통합된 에이전트 지능 모델

Pelican-Unified 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action

Zecong Tang
Zecong Tang
Citations: 10
h-index: 2
Senkang Hu
Senkang Hu
Citations: 499
h-index: 12
Yong Dai
Yong Dai
Citations: 31
h-index: 3
Xiaozhu Ju
Xiaozhu Ju
Citations: 294
h-index: 7
Xiao-Ping Zhang
Xiao-Ping Zhang
Citations: 3
h-index: 1
Yecheng Wu
Yecheng Wu
Citations: 939
h-index: 6
Yinda Chen
Yinda Chen
Citations: 3
h-index: 1
Yangyang Xu
Yangyang Xu
Citations: 23
h-index: 2
Yi Zhang
Yi Zhang
Citations: 14
h-index: 2
Che Liu
Che Liu
Citations: 13
h-index: 2
Zeyuan Ding
Zeyuan Ding
Citations: 12
h-index: 2
Jin Xu
Jin Xu
Citations: 58
h-index: 3
Shilong Zou
Shilong Zou
Citations: 28
h-index: 3
Junwei Liao
Junwei Liao
Citations: 284
h-index: 7
Jiayu Hu
Jiayu Hu
Citations: 12
h-index: 2
Xiancong Ren
Xiancong Ren
Citations: 11
h-index: 2
Yechi Liu
Yechi Liu
Citations: 3
h-index: 1
Haoyuan Shi
Haoyuan Shi
Citations: 37
h-index: 3
Hao Sun
Hao Sun
Citations: 36
h-index: 2
REN‐LIN Cui
REN‐LIN Cui
Citations: 17
h-index: 2
Kui Wu
Kui Wu
Citations: 121
h-index: 5
Wenhai Liu
Wenhai Liu
Citations: 110
h-index: 4
Yingji Zhang
Yingji Zhang
University of Manchester
Citations: 112
h-index: 7
Yidong Wang
Yidong Wang
Citations: 11
h-index: 2
Jinpeng Lu
Jinpeng Lu
Citations: 63
h-index: 4
Nga Teng Chan
Nga Teng Chan
Citations: 10
h-index: 2
Jian Tang
Jian Tang
Citations: 49
h-index: 5

본 논문에서는 '통합' 원칙에 따라 훈련된 최초의 통합 에이전트 기반 모델인 Pelican-Unified 1.0을 소개합니다. Pelican-Unified 1.0은 하나의 시각 언어 모델(VLM)을 통합된 이해 모듈로 사용하여 장면, 지침, 시각적 맥락 및 행동 기록을 공유된 의미 공간에 매핑합니다. 동일한 VLM은 또한 통합된 추론 모듈 역할을 하며, 단일 순방향 패스에서 작업, 행동 및 미래 지향적인 사고 체인을 자동 회귀적으로 생성하고 최종 숨겨진 상태를 밀집된 잠재 변수로 투영합니다. 통합된 미래 생성기(UFG)는 이 잠재 변수에 기반하여 동일한 노이즈 제거 프로세스 내에서 모달리티별 출력 헤드를 통해 미래 비디오와 미래 행동을 공동으로 생성합니다. 언어, 비디오 및 행동 손실은 모두 공유된 표현으로 역전파되어 모델이 훈련 중에 이해, 추론, 상상 및 행동을 공동으로 최적화할 수 있도록 합니다. 실험 결과, 통합이 성능 저하를 의미하지 않음을 보여줍니다. 단일 체크포인트를 사용하여 Pelican-Unified 1.0은 세 가지 주요 기능 모두에서 뛰어난 성능을 달성했습니다. VLM 벤치마크에서 64.7의 점수를 기록하여 유사한 규모의 모델 중 최고를 차지했으며, WorldArena에서는 66.03의 점수로 1위를 차지했고, RoboTwin에서는 93.5의 점수를 기록하여 비교된 행동 방법 중 두 번째로 높은 평균을 기록했습니다. 이러한 결과는 통합 패러다임이 전문성을 유지하면서 이해, 추론, 상상 및 행동을 하나의 모델로 통합하는 데 성공함을 보여줍니다.

Original Abstract

We present Pelican-Unified 1.0, the first embodied foundation model trained according to the principle of unification. Pelican-Unified 1.0 uses a single VLM as a unified understanding module, mapping scenes, instructions, visual contexts, and action histories into a shared semantic space. The same VLM also serves as a unified reasoning module, autoregressively producing task-, action-, and future-oriented chains of thought in a single forward pass and projecting the final hidden state into a dense latent variable. A Unified Future Generator (UFG) then conditions on this latent variable and jointly generates future videos and future actions through two modality-specific output heads within the same denoising process. The language, video, and action losses are all backpropagated into the shared representation, enabling the model to jointly optimize understanding, reasoning, imagination, and action during training, rather than training three isolated expert systems. Experiments demonstrate that unification does not imply compromise. With a single checkpoint, Pelican-Unified 1.0 achieves strong performance across all three capabilities: 64.7 on eight VLM benchmarks, the best among comparable-scale models; 66.03 on WorldArena, ranking first; and 93.5 on RoboTwin, the second-best average among compared action methods. These results show that the unified paradigm succeeds in preserving specialist strength while bringing understanding, reasoning, imagination, and action into one model.

3 Citations
0 Influential
6 Altmetric
33.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!