장면에서 객체로: 텍스트 기반 이중 시선 예측
From Scene to Object: Text-Guided Dual-Gaze Prediction
인간과 유사한 자율 주행을 위해서는 해석 가능한 운전자 주의력 예측이 매우 중요합니다. 그러나 기존 데이터셋은 객체 수준의 세밀한 정보를 제공하는 대신, 장면 수준의 전체적인 시선 정보만을 제공하여 텍스트 기반 인지 모델링을 효과적으로 지원하지 못합니다. 결과적으로, 시각-언어 모델(VLMs)은 의미론적 추론에 큰 잠재력을 가지고 있지만, 이러한 중요한 데이터 제한으로 인해 텍스트와 이미지 간의 연관성이 제대로 이루어지지 않고 시각적 편향이 발생할 수 있습니다. 이러한 문제점을 해결하고 정확한 객체 수준의 주의력 예측을 달성하기 위해, 본 논문에서는 데이터 구축부터 모델 아키텍처에 이르기까지 완전한 패러다임을 제시하는 새로운 이중 분기 시선 예측 프레임워크를 제안합니다. 먼저, 객체 수준의 운전자 주의력 데이터셋인 G-W3DA를 구축했습니다. 다중 모드 대규모 언어 모델과 Segment Anything Model 3 (SAM3)을 통합하여 엄격한 교차 검증을 통해 거시적인 히트맵을 객체 수준의 마스크로 분리함으로써, 주석 오류를 근본적으로 제거했습니다. 이렇게 구축된 고품질 데이터를 기반으로, DualGaze-VLM 아키텍처를 제안합니다. 이 아키텍처는 의미론적 쿼리의 숨겨진 상태를 추출하고 Condition-Aware SE-Gate를 통해 시각적 특징을 동적으로 조절하여, 의도 기반의 정확한 공간적 정렬을 달성합니다. W3DA 벤치마크에서의 광범위한 실험 결과, DualGaze-VLM은 기존 최고 성능(SOTA) 모델보다 공간 정렬 지표에서 일관되게 우수한 성능을 보였으며, 특히 안전이 중요한 시나리오에서 Similarity (SIM) 지표가 최대 17.8% 향상되었습니다. 또한, 시각적 튜링 테스트 결과, DualGaze-VLM이 생성한 주의력 히트맵이 평가자 88.22%에 의해 실제 데이터로 인식되어, 합리적인 인지적 선입견을 생성하는 능력을 입증했습니다.
Interpretable driver attention prediction is crucial for human-like autonomous driving. However, existing datasets provide only scene-level global gaze rather than fine-grained object-level annotations, inherently failing to support text-grounded cognitive modeling. Consequently, while Vision-Language Models (VLMs) hold great potential for semantic reasoning, this critical data limitations leads to severe text-vision decoupling and visual-bias hallucinations. To break this bottleneck and achieve precise object-level attention prediction, this paper proposes a novel dual-branch gaze prediction framework, establishing a complete paradigm from data construction to model architecture. First, we construct G-W3DA, a object-level driver attention dataset. By integrating a multimodal large language model with the Segment Anything Model 3 (SAM3), we decouple macroscopic heatmaps into object-level masks under rigorous cross-validation, fundamentally eliminating annotation hallucinations. Building upon this high-quality data foundation, we propose the DualGaze-VLM architecture. This architecture extracts the hidden states of semantic queries and dynamically modulates visual features via a Condition-Aware SE-Gate, achieving intent-driven precise spatial anchoring. Extensive experiments on the W3DA benchmark demonstrate that DualGaze-VLM consistently surpasses existing state-of-the-art (SOTA) models in spatial alignment metrics, notably achieving up to a 17.8% improvement in Similarity (SIM) under safety-critical scenarios. Furthermore, a visual Turing test reveals that the attention heatmaps generated by DualGaze-VLM are perceived as authentic by 88.22% of human evaluators, proving its capability to generate rational cognitive priors.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.