직관적인 물리학을 기반으로 한 사회적 인지
Grounding Social Perception in Intuitive Physics
사람들은 다른 사람들의 행동으로부터 풍부한 사회적 정보를 추론합니다. 이러한 추론은 종종 물리적인 세계에 의해 제약됩니다. 즉, 에이전트가 할 수 있는 일, 장애물이 허용하는 것, 그리고 에이전트의 물리적인 행동이 환경, 다른 에이전트의 정신 상태 및 행동을 인과적으로 어떻게 변화시키는지 등이 영향을 미칩니다. 우리는 이러한 풍부한 사회적 인지가 단순한 시각 패턴 매칭이 아니라, 직관적인 심리학과 직관적인 물리학의 통합을 기반으로 하는 추론 과정이라고 제안합니다. 이 가설을 검증하기 위해, 우리는 물리적으로 기반한 추상적 사회적 사건(PHASE)이라는 대규모의 절차적으로 생성된 애니메이션 데이터셋을 도입했습니다. 이 데이터셋은 2D 표면에서 물리적으로 시뮬레이션된 두 에이전트 간의 상호 작용을 묘사하며, 각 애니메이션은 Heider와 Simmel의 영화와 유사한 스타일을 따르지만, 환경의 기하학적 구조, 물체의 역학, 에이전트의 능력, 목표 및 관계(우호/적대/중립)가 체계적으로 변형되었습니다. 우리는 또한 SIMPLE이라는 물리적으로 기반한 베이지안 역방향 계획 모델을 제시합니다. 이 모델은 계획, 확률적 계획 및 물리 시뮬레이션을 통합하여 에이전트의 궤적으로부터 에이전트의 목표와 관계를 추론합니다. 우리의 실험 결과는 SIMPLE 모델이 다양한 시나리오에서 높은 정확도를 달성했으며, 인간의 판단과 일치한다는 것을 보여주었습니다. 반면, 순방향 기반 모델(강력한 시각-언어 모델 포함) 및 물리적 특성을 고려하지 않는 역방향 계획 모델은 인간 수준의 성능을 달성하지 못했으며, 인간의 판단과 일치하지 않았습니다. 이러한 결과는 우리의 모델이 사람들이 물리적으로 기반한 사회적 장면을 이해하는 방법에 대한 계산적 설명을 제공하며, 이는 물리 및 에이전트에 대한 생성 모델을 역전시키는 과정을 통해 이루어진다는 것을 시사합니다.
People infer rich social information from others' actions. These inferences are often constrained by the physical world: what agents can do, what obstacles permit, and how the physical actions of agents causally change an environment and other agents' mental states and behavior. We propose that such rich social perception is more than visual pattern matching, but rather a reasoning process grounded in an integration of intuitive psychology with intuitive physics. To test this hypothesis, we introduced PHASE (PHysically grounded Abstract Social Events), a large dataset of procedurally generated animations, depicting physically simulated two-agent interactions on a 2D surface. Each animation follows the style of the Heider and Simmel movie, with systematic variation in environment geometry, object dynamics, agent capacities, goals, and relationships (friendly/adversarial/neutral). We then present a computational model, SIMPLE, a physics-grounded Bayesian inverse planning model that integrates planning, probabilistic planning, and physics simulation to infer agents' goals and relations from their trajectories. Our experimental results showed that SIMPLE achieved high accuracy and agreement with human judgments across diverse scenarios, while feedforward baseline models -- including strong vision-language models -- and physics-agnostic inverse planning failed to achieve human-level performance and did not align with human judgments. These results suggest that our model provides a computational account for how people understand physically grounded social scenes by inverting a generative model of physics and agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.