EgoPro-Bench: 자아 중심 영상 스트림에서의 개인 맞춤형 선제적 상호 작용 성능 평가
EgoPro-Bench: Benchmarking Personalized Proactive Interaction in Egocentric Video Streams
기존의 다중 모달 대규모 언어 모델(MLLM)은 주로 반응적인 방식으로 작동하며, 환경을 지속적으로 인지하거나 사용자에게 선제적으로 도움을 제공하지 못합니다. 기존의 선제적 상호 작용 성능 평가 벤치마크는 주로 경고 시나리오에 국한되며, 개인화된 맥락을 고려하지 않고, 인간-기계 상호 작용(HMI)의 정확한 타이밍을 평가하지 못합니다. 본 논문에서는 스트리밍되는 자아 중심 영상 데이터를 기반으로 선제적 상호 작용 능력을 훈련하고 평가하기 위한 새로운 벤치마크인 EgoPro-Bench를 소개합니다. EgoPro-Bench는 평가 세트에서 2,400개의 영상, 훈련 세트에서 12,000개 이상의 영상을 포함합니다. 기존 연구와 달리, EgoPro-Bench는 시뮬레이션된 사용자 프로필을 활용하여 다양한 사용자 의도를 생성하고, 12가지의 서로 다른 영역에서 고품질의 HMI 데이터를 구축합니다. 또한, 우리는 특수한 평가 프로토콜과 지표를 제안하고, 스트리밍 영상 데이터에 대한 효율적인 추론과 낮은 지연 시간의 상호 작용을 위해 설계된 선제적 상호 작용 모델을 훈련하고, 종합적인 평가를 수행합니다. 더불어, 우리는 "짧은 사고, 더 나은 상호 작용"이라는 상호 작용 원칙을 제시하며, 의도 인식 전에 제한된 토큰 예산을 할당하여 상호 작용 성능을 향상시킵니다. 실험 결과는 EgoPro-Bench가 MLLM의 의도 이해 능력을 크게 향상시키고, 적절한 HMI 타이밍을 정확하게 식별할 수 있도록 함으로써, 차세대 사용자 중심의 선제적 상호 작용 에이전트 개발을 위한 기반을 마련한다는 것을 보여줍니다.
Existing Multimodal Large Language Models (MLLMs) remain primarily reactive, failing to continuously perceive environments or proactively assist users. While emerging benchmarks address proactivity, they are largely confined to alert scenarios, neglect personalized context, and fail to evaluate the precise timing of human-machine interactions (HMI).In this paper, we introduce EgoPro-Bench, a novel benchmark for training and evaluating proactive interaction capabilities based on streaming egocentric videos; it comprises 2,400 videos in the evaluation set and over 12,000 videos in the training set.Unlike previous works, EgoPro-Bench leverages simulated user profiles to generate diverse user intentions and to construct high-fidelity HMI data across 12 distinct domains.Subsequently, we propose a specialized evaluation protocol and metrics, train proactive interaction models designed for efficient reasoning and low-latency interaction on streaming video data, and conduct comprehensive evaluations.Furthermore, we introduce an interaction principle termed "short thinking, better interaction", which allocates a limited token budget prior to intent recognition, thereby enhancing interaction performance.The experiments demonstrate that EgoPro-Bench substantially enhances the intention understanding capabilities of MLLMs and enables accurate identification of appropriate timings for HMI, thereby laying a solid foundation for next-generation user-centric proactive interactive agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.