2602.11389v1 Feb 11, 2026 cs.AI

Causal-JEPA: 객체 수준의 잠재적 개입을 통한 세계 모델 학습

Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Lucas Maes
Lucas Maes
Citations: 96
h-index: 5
Quentin Le Lidec
Quentin Le Lidec
Citations: 338
h-index: 10
Yann LeCun
Yann LeCun
Citations: 894
h-index: 12
Heejeong Nam
Heejeong Nam
Citations: 35
h-index: 3
Randall Balestriero
Randall Balestriero
Citations: 71
h-index: 3

세계 모델은 예측, 추론 및 제어를 지원하기 위해 강력한 관계적 이해를 필요로 합니다. 객체 중심 표현은 유용한 추상화를 제공하지만, 상호 작용에 의존하는 역학을 포착하기에는 충분하지 않습니다. 따라서 우리는 객체 중심의 세계 모델인 C-JEPA를 제안합니다. C-JEPA는 이미지 패치에서 마스크된 결합 임베딩 예측을 객체 중심 표현으로 확장하는 간단하고 유연한 모델입니다. C-JEPA는 객체 수준의 마스크를 적용하여 객체의 상태를 다른 객체로부터 추론하도록 요구하며, 이를 통해 반사실적 효과를 갖는 잠재적 개입을 유도하고, 단순화된 해결책을 방지하며, 상호 작용 추론이 필수적으로 이루어지도록 합니다. 실험적으로, C-JEPA는 시각적 질문 응답에서 일관된 성능 향상을 보이며, 객체 수준 마스크가 없는 동일한 아키텍처에 비해 반사실적 추론에서 약 20%의 절대적인 성능 향상을 달성합니다. 에이전트 제어 작업에서, C-JEPA는 패치 기반 세계 모델에 필요한 총 잠재 입력 특징의 1%만을 사용하여 훨씬 더 효율적인 계획을 가능하게 하며, 동시에 유사한 성능을 달성합니다. 또한, 우리는 객체 수준의 마스크가 잠재적 개입을 통해 인과적 유도 편향을 유발한다는 것을 보여주는 형식적인 분석을 제공합니다. 저희의 코드는 https://github.com/galilai-group/cjepa 에서 확인할 수 있습니다.

Original Abstract

World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.

0 Citations
0 Influential
45.560115027141 Altmetric
227.8 Score
Original PDF
49

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!