Pelican-Unified 1.0: 이해, 추론, 상상 및 행동을 위한 통합된 에이전트 지능 모델
Pelican-Unified 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action
본 논문에서는 '통합' 원칙에 따라 훈련된 최초의 통합 에이전트 기반 모델인 Pelican-Unified 1.0을 소개합니다. Pelican-Unified 1.0은 하나의 시각 언어 모델(VLM)을 통합된 이해 모듈로 사용하여 장면, 지침, 시각적 맥락 및 행동 기록을 공유된 의미 공간에 매핑합니다. 동일한 VLM은 또한 통합된 추론 모듈 역할을 하며, 단일 순방향 패스에서 작업, 행동 및 미래 지향적인 사고 체인을 자동 회귀적으로 생성하고 최종 숨겨진 상태를 밀집된 잠재 변수로 투영합니다. 통합된 미래 생성기(UFG)는 이 잠재 변수에 기반하여 동일한 노이즈 제거 프로세스 내에서 모달리티별 출력 헤드를 통해 미래 비디오와 미래 행동을 공동으로 생성합니다. 언어, 비디오 및 행동 손실은 모두 공유된 표현으로 역전파되어 모델이 훈련 중에 이해, 추론, 상상 및 행동을 공동으로 최적화할 수 있도록 합니다. 실험 결과, 통합이 성능 저하를 의미하지 않음을 보여줍니다. 단일 체크포인트를 사용하여 Pelican-Unified 1.0은 세 가지 주요 기능 모두에서 뛰어난 성능을 달성했습니다. VLM 벤치마크에서 64.7의 점수를 기록하여 유사한 규모의 모델 중 최고를 차지했으며, WorldArena에서는 66.03의 점수로 1위를 차지했고, RoboTwin에서는 93.5의 점수를 기록하여 비교된 행동 방법 중 두 번째로 높은 평균을 기록했습니다. 이러한 결과는 통합 패러다임이 전문성을 유지하면서 이해, 추론, 상상 및 행동을 하나의 모델로 통합하는 데 성공함을 보여줍니다.
We present Pelican-Unified 1.0, the first embodied foundation model trained according to the principle of unification. Pelican-Unified 1.0 uses a single VLM as a unified understanding module, mapping scenes, instructions, visual contexts, and action histories into a shared semantic space. The same VLM also serves as a unified reasoning module, autoregressively producing task-, action-, and future-oriented chains of thought in a single forward pass and projecting the final hidden state into a dense latent variable. A Unified Future Generator (UFG) then conditions on this latent variable and jointly generates future videos and future actions through two modality-specific output heads within the same denoising process. The language, video, and action losses are all backpropagated into the shared representation, enabling the model to jointly optimize understanding, reasoning, imagination, and action during training, rather than training three isolated expert systems. Experiments demonstrate that unification does not imply compromise. With a single checkpoint, Pelican-Unified 1.0 achieves strong performance across all three capabilities: 64.7 on eight VLM benchmarks, the best among comparable-scale models; 66.03 on WorldArena, ranking first; and 93.5 on RoboTwin, the second-best average among compared action methods. These results show that the unified paradigm succeeds in preserving specialist strength while bringing understanding, reasoning, imagination, and action into one model.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.