2601.13247v1 Jan 19, 2026 cs.CL

지식 기반 경험 학습을 통한 에이전트 기반 세계 모델 정렬

Aligning Agentic World Models via Knowledgeable Experience Learning

Shuofei Qiao
Shuofei Qiao
Citations: 1,198
h-index: 11
Ningyu Zhang
Ningyu Zhang
Citations: 195
h-index: 7
Yunzhi Yao
Yunzhi Yao
Zhejiang University;Shandong University
Citations: 2,875
h-index: 20
Huajun Chen
Huajun Chen
Citations: 4,018
h-index: 32
Baochang Ren
Baochang Ren
Citations: 15
h-index: 2
Rui Sun
Rui Sun
University of California, Los Angeles
Citations: 128
h-index: 6

현재의 대규모 언어 모델(LLM)은 중요한 모달 불일치를 보입니다. 즉, 방대한 의미론적 지식을 보유하고 있지만, 물리 세계의 불변 법칙을 준수하는 절차적 이해가 부족합니다. 결과적으로, 이러한 에이전트는 암묵적으로 세계 모델로서 기능하지만, 그 시뮬레이션은 종종 물리적 환각을 일으키며, 논리적으로는 타당하지만 물리적으로 실행 불가능한 계획을 생성합니다. 기존의 정렬 전략은 주로 리소스를 많이 소비하는 훈련 또는 미세 조정에 의존하며, 이는 동적인 환경 규칙을 정적인 모델 파라미터로 압축하려고 시도합니다. 그러나 이러한 파라미터 기반 캡슐화는 본질적으로 경직되어 있으며, 지속적이고 비용이 많이 드는 재훈련 없이는 물리적 역학의 개방형 변동성에 적응하기 어렵습니다. 이러한 격차를 해소하기 위해, 우리는 환경 피드백을 종합하여 상징적인 세계 지식 저장소를 자율적으로 구축하는 프레임워크인 WorldMind를 소개합니다. 구체적으로, WorldMind는 예측 오류를 통해 물리적 타당성을 강제하는 프로세스 경험과 성공적인 경로를 통해 작업 최적화를 안내하는 목표 경험을 통합합니다. EB-ALFRED 및 EB-Habitat에서의 실험 결과, WorldMind는 기준 모델보다 우수한 성능을 달성했으며, 주목할 만한 모델 간 및 환경 간 이전 가능성을 보여주었습니다.

Original Abstract

Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.

0 Citations
0 Influential
16 Altmetric
80.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!