LifeEval: 개인 시점에서 바라본 일상생활 지원 AI를 위한 다중 모드 벤치마크
LifeEval: A Multimodal Benchmark for Assistive AI in Egocentric Daily Life Tasks
다중 모드 대규모 언어 모델(MLLM)의 빠른 발전은 인공 일반 지능으로 향하는 중요한 진전이며, 인간 능력을 향상시킬 수 있는 엄청난 잠재력을 제공합니다. 그러나 이러한 모델들이 역동적이고 실제 환경에서 효과적인 지원을 제공하는 능력은 아직 충분히 연구되지 않았습니다. 기존의 비디오 벤치마크는 주로 과거 분석이나 개별적인 인식 작업을 통해 수동적인 이해를 평가하며, 실시간 사용자 지원의 상호 작용적이고 적응적인 특성을 제대로 반영하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 개인 시점에서 일상생활에서의 실시간, 작업 지향적인 인간-AI 협업을 평가하기 위한 다중 모드 벤치마크인 LifeEval을 소개합니다. LifeEval은 작업 지향적인 종합적인 평가, 지속적인 1인칭 시점 스트림으로부터의 개인 중심적인 실시간 인식, 그리고 자연스러운 대화를 통한 인간-어시스턴트 협력 상호 작용이라는 세 가지 핵심 측면에 중점을 둡니다. 엄격한 주석 파이프라인을 통해 구축된 LifeEval은 6가지 핵심 능력 차원에 걸쳐 4,075개의 고품질 질문-답변 쌍으로 구성되어 있습니다. LifeEval에 대한 26개의 최첨단 MLLM에 대한 광범위한 평가는 시의적절하고 효과적이며 적응적인 상호 작용을 달성하는 데 상당한 어려움이 있음을 보여주며, 인간 중심적인 상호 작용 지능을 발전시키기 위한 필수적인 방향을 제시합니다.
The rapid progress of Multimodal Large Language Models (MLLMs) marks a significant step toward artificial general intelligence, offering great potential for augmenting human capabilities. However, their ability to provide effective assistance in dynamic, real-world environments remains largely underexplored. Existing video benchmarks predominantly assess passive understanding through retrospective analysis or isolated perception tasks, failing to capture the interactive and adaptive nature of real-time user assistance. To bridge this gap, we introduce LifeEval, a multimodal benchmark designed to evaluate real-time, task-oriented human-AI collaboration in daily life from an egocentric perspective. LifeEval emphasizes three key aspects: task-oriented holistic evaluation, egocentric real-time perception from continuous first-person streams, and human-assistant collaborative interaction through natural dialogues. Constructed via a rigorous annotation pipeline, the benchmark comprises 4,075 high-quality question-answer pairs across 6 core capability dimensions. Extensive evaluations of 26 state-of-the-art MLLMs on LifeEval reveal substantial challenges in achieving timely, effective and adaptive interaction, highlighting essential directions for advancing human-centered interactive intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.