이기 중심 동영상에서의 개인화된 질의응답을 위한 자아 기반 정보 활용
Ego-Grounding for Personalized Question-Answering in Egocentric Videos
본 논문에서는 이기 중심 동영상에서 카메라 착용자를 이해하는 능력, 즉 자아 기반 정보 활용 능력을 요구하는 개인화된 질의응답을 위한 다중 모드 대규모 언어 모델(MLLM)에 대한 최초의 체계적인 분석을 제시합니다. 이를 위해, MLLM의 능력을 평가하기 위해 설계된 최초의 이기 중심 동영상 질의응답 데이터셋인 MyEgo를 소개합니다. MyEgo는 541개의 긴 동영상과 '나의 물건', '나의 활동', '나의 과거'에 대한 5,000개의 개인화된 질문으로 구성되어 있습니다. 벤치마킹 결과, 오픈 소스 및 독점 모델, 추론 기능 유무, 소규모 및 대규모 모델 등 다양한 MLLM들이 MyEgo에서 어려움을 겪는 것으로 나타났습니다. 최상위 독점 및 오픈 소스 모델(예: GPT-5 및 Qwen3-VL)의 정확도는 각각 약 46%와 36%에 불과하며, 이는 인간 성능에 비해 각각 약 40%와 50% 낮은 수치입니다. 놀랍게도, 명시적인 추론이나 모델 크기 확장은 일관된 성능 향상을 가져오지 않습니다. 관련 증거가 명시적으로 제공되면 모델의 성능이 향상되지만, 시간이 지남에 따라 개선 효과가 감소하여, '나'와 '나의 과거'를 추적하고 기억하는 데 한계가 있음을 시사합니다. 이러한 결과는 이기 중심 동영상에서 개인화된 질의응답을 가능하게 하는 데 자아 기반 정보 활용 능력과 장기 기억의 중요한 역할을 강조합니다. MyEgo 데이터셋과 본 연구의 분석이 이 분야의 발전에 기여하기를 바랍니다. 데이터 및 코드는 https://github.com/Ryougetsu3606/MyEgo 에서 확인할 수 있습니다.
We present the first systematic analysis of multimodal large language models (MLLMs) in personalized question-answering requiring ego-grounding - the ability to understand the camera-wearer in egocentric videos. To this end, we introduce MyEgo, the first egocentric VideoQA dataset designed to evaluate MLLMs' ability to understand, remember, and reason about the camera wearer. MyEgo comprises 541 long videos and 5K personalized questions asking about "my things", "my activities", and "my past". Benchmarking reveals that competitive MLLMs across variants, including open-source vs. proprietary, thinking vs. non-thinking, small vs. large scales all struggle on MyEgo. Top closed- and open-source models (e.g., GPT-5 and Qwen3-VL) achieve only~46% and 36% accuracy, trailing human performance by near 40% and 50% respectively. Surprisingly, neither explicit reasoning nor model scaling yield consistent improvements. Models improve when relevant evidence is explicitly provided, but gains drop over time, indicating limitations in tracking and remembering "me" and "my past". These findings collectively highlight the crucial role of ego-grounding and long-range memory in enabling personalized QA in egocentric videos. We hope MyEgo and our analyses catalyze further progress in these areas for egocentric personalized assistance. Data and code are available at https://github.com/Ryougetsu3606/MyEgo
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.