2604.23728v1 Apr 26, 2026 cs.CV

ESIA: 에너지 기반의 공간-시간적 상호작용 인식 보행자 의도 예측 프레임워크

ESIA: An Energy-Based Spatiotemporal Interaction-Aware Framework for Pedestrian Intention Prediction

Yanping Wu
Yanping Wu
Citations: 2
h-index: 1
Meiting Dang
Meiting Dang
Citations: 27
h-index: 2
Lin Wu
Lin Wu
Citations: 0
h-index: 0
Edmond S. L. Ho
Edmond S. L. Ho
Citations: 12
h-index: 2
Zhenghua Chen
Zhenghua Chen
Citations: 11,671
h-index: 49
Chongfeng Wei
Chongfeng Wei
Citations: 97
h-index: 6

최근 자율 주행 기술의 발전은 보행자 의도 예측 연구를 촉진했으며, 이는 시간적 동역학, 사회적 상호작용 및 환경적 맥락을 모델링하여 보행자의 미래 행동, 특히 횡단 결정을 예측하는 것을 목표로 합니다. 그러나 기존 연구는 단순화된 다중 에이전트 상호작용 패턴, 불투명한 추론 로직 및 행동 예측의 전반적인 일관성 부족으로 인해 견고성과 해석 가능성이 제한됩니다. 본 연구에서는 에너지 기반의 공간-시간적 상호작용을 인식하는 새로운 프레임워크인 ESIA (Energy-based Spatiotemporal Interaction-Aware framework)를 제안합니다. 우리는 의도 예측 문제를 통일된 그래프 기반 표현을 사용한 구조화된 예측 문제로 정의하며, 보행자와 환경을 공간-시간적 노드로 취급합니다. 각 요소의 고유한 역할을 설명하기 위해, 노드에 개별 의도를 나타내는 단일 잠재력을 할당하고, 엣지에 사회적 및 환경적 상호작용을 인코딩하는 쌍별 잠재력을 할당합니다. 이러한 잠재력은 통일된 전역 에너지 함수에 통합되어 장면 수준의 일관성을 보장합니다. 또한, 지도 학습 없이 추론을 더욱 제한하기 위해, 논리적 모순을 줄이기 위한 구조적 일관성 항을 도입합니다. 이러한 최적화는 새로운 Unary-Seeded Simulated Annealing (U-SSA) 알고리즘을 통해 효율적으로 해결되며, 이 알고리즘은 높은 신뢰도를 가진 단일 잠재력을 활용하여 빠르고 고품질의 솔루션으로 수렴합니다. 표준 벤치마크에 대한 광범위한 실험 결과, ESIA는 기존 방법보다 우수한 성능과 향상된 해석 가능성을 달성함을 보여줍니다.

Original Abstract

Recent advances in autonomous driving have motivated research on pedestrian intention prediction, which aims to infer future crossing decisions and actions by modeling temporal dynamics, social interactions, and environmental context. However, existing studies remain constrained by oversimplified multi-agent interaction patterns, opaque reasoning logic, and a lack of global consistency in behavioral predictions, which compromise both robustness and interpretability. In this work, we propose ESIA (Energy-based Spatiotemporal Interaction-Aware framework), a novel Conditional Random Field (CRF)-based paradigm. We cast the intention prediction task as a structured prediction problem over a unified graph-based representation, treating pedestrians and the environment as spatiotemporal nodes. To characterize their distinct roles, we assign unary potentials to nodes to capture individual intentions, and pairwise potentials to edges to encode social and environmental interactions. These potentials are integrated into a unified global energy function to ensure scene-level consistency across behavioral predictions. To further constrain inference without ground-truth supervision, we introduce structural consistency terms to penalize logical contradictions. This optimization is efficiently solved via a novel Unary-Seeded Simulated Annealing (U-SSA) algorithm, which leverages high-confidence unary priors to rapidly converge to a high-quality solution. Extensive experiments on standard benchmarks demonstrate that ESIA achieves state-of-the-art performance with improved interpretability over existing methods.

0 Citations
0 Influential
24.5 Altmetric
122.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!