HippoCamp: 개인용 컴퓨터 환경에서 맥락 인지 에이전트 성능 평가 기준
HippoCamp: Benchmarking Contextual Agents on Personal Computers
본 논문에서는 다중 모드 파일 관리 분야에서 에이전트의 성능을 평가하기 위한 새로운 벤치마크인 HippoCamp를 소개합니다. 기존 에이전트 벤치마크들이 웹 상호 작용, 도구 사용 또는 일반적인 환경에서의 소프트웨어 자동화와 같은 작업에 초점을 맞추는 것과는 달리, HippoCamp는 사용자 중심 환경에서 에이전트를 평가하여 개별 사용자 프로필을 모델링하고 방대한 개인 파일을 검색하여 맥락 인지 추론을 수행합니다. HippoCamp 벤치마크는 실제 사용자 프로필을 기반으로 구축된 기기 규모의 파일 시스템을 사용하며, 2,000개 이상의 실제 파일을 포함하여 총 42.4GB의 데이터를 포함합니다. 원본 파일을 기반으로, 에이전트의 검색 능력, 증거 인식 능력 및 다단계 추론 능력을 평가하기 위한 581개의 질의응답(QA) 쌍을 구성했습니다. 세밀한 분석을 지원하기 위해, 단계별 실패 원인 진단을 위한 46,100개의 상세하게 주석이 달린 구조화된 시퀀스 데이터를 제공합니다. 최첨단 다중 모드 대규모 언어 모델(MLLM) 및 에이전트 기반 방법론을 HippoCamp에서 평가했습니다. 종합적인 실험 결과, 상당한 성능 격차가 있음을 보여주었습니다. 가장 발전된 상용 모델조차도 사용자 프로필링에서 48.3%의 정확도를 달성하는 데 그쳤으며, 특히 방대한 개인 파일 시스템 내에서 장기적인 정보 검색 및 다중 모드 추론에 어려움을 겪었습니다. 또한, 단계별 실패 원인 분석을 통해 다중 모드 인식 및 증거 기반 추론이 주요 병목 현상임을 확인했습니다. 궁극적으로, HippoCamp는 현재 에이전트의 현실적인 사용자 중심 환경에서의 중요한 한계를 드러내며, 차세대 개인 AI 어시스턴트 개발을 위한 견고한 기반을 제공합니다.
We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.