2602.11389v1 Feb 11, 2026 cs.AI

Causal-JEPA: 객체 수준의 잠재적 개입을 통한 세계 모델 학습

Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Lucas Maes
Lucas Maes
Citations: 16
h-index: 2
Quentin Le Lidec
Quentin Le Lidec
Citations: 235
h-index: 7
Yann LeCun
Yann LeCun
Citations: 475
h-index: 9
Randall Balestriero
Randall Balestriero
Citations: 1,605
h-index: 20
Heejeong Nam
Heejeong Nam
Citations: 19
h-index: 2

세계 모델은 예측, 추론 및 제어를 지원하기 위해 강력한 관계적 이해를 필요로 합니다. 객체 중심 표현은 유용한 추상화를 제공하지만, 상호 작용에 의존하는 역학을 포착하기에는 충분하지 않습니다. 따라서 우리는 객체 중심의 세계 모델인 C-JEPA를 제안합니다. C-JEPA는 이미지 패치에서 마스크된 결합 임베딩 예측을 객체 중심 표현으로 확장하는 간단하고 유연한 모델입니다. C-JEPA는 객체 수준의 마스크를 적용하여 객체의 상태를 다른 객체로부터 추론하도록 요구하며, 이를 통해 반사실적 효과를 갖는 잠재적 개입을 유도하고, 단순화된 해결책을 방지하며, 상호 작용 추론이 필수적으로 이루어지도록 합니다. 실험적으로, C-JEPA는 시각적 질문 응답에서 일관된 성능 향상을 보이며, 객체 수준 마스크가 없는 동일한 아키텍처에 비해 반사실적 추론에서 약 20%의 절대적인 성능 향상을 달성합니다. 에이전트 제어 작업에서, C-JEPA는 패치 기반 세계 모델에 필요한 총 잠재 입력 특징의 1%만을 사용하여 훨씬 더 효율적인 계획을 가능하게 하며, 동시에 유사한 성능을 달성합니다. 또한, 우리는 객체 수준의 마스크가 잠재적 개입을 통해 인과적 유도 편향을 유발한다는 것을 보여주는 형식적인 분석을 제공합니다. 저희의 코드는 https://github.com/galilai-group/cjepa 에서 확인할 수 있습니다.

Original Abstract

World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.

0 Citations
0 Influential
49.560115027141 Altmetric
247.8 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!