PhotoBench: 시각적 매칭을 넘어 개인화된 의도 기반 사진 검색을 위한 프레임워크
PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval
개인 사진 앨범은 단순히 정적인 이미지들의 모음이 아니라, 시간적 연속성, 사회적 관계, 풍부한 메타데이터로 구성된 살아있는 기록물입니다. 이러한 특성 때문에 개인화된 사진 검색은 매우 복잡한 문제입니다. 그러나 기존의 검색 벤치마크는 맥락이 단절된 웹 스냅샷에 크게 의존하며, 실제 사용자의 의도를 정확하게 파악하기 위한 다중 정보 융합 능력을 제대로 반영하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 실제 개인 앨범으로 구성된 최초의 벤치마크인 PhotoBench를 소개합니다. PhotoBench는 시각적 매칭에서 벗어나, 개인화된 다중 정보 기반 의도 추론을 가능하게 하는 새로운 패러다임을 제시합니다. 우리는 시각적 의미, 공간-시간 메타데이터, 사회적 정보, 그리고 시간적 사건을 통합하는 엄격한 다중 정보 프로파일링 프레임워크를 기반으로, 사용자의 삶의 여정을 반영하는 복잡한 의도 기반 검색 쿼리를 생성합니다. PhotoBench에 대한 광범위한 실험 결과, 두 가지 중요한 한계점이 드러났습니다. 첫째는, 통합된 임베딩 모델이 시각 정보 이외의 제약 조건에 취약하다는 '모달리티 갭' 문제입니다. 둘째는, 시스템이 다양한 도구를 효과적으로 활용하지 못하는 '소스 융합 역설'입니다. 이러한 결과는 개인화된 멀티모달 검색의 다음 단계는 통합된 임베딩을 넘어, 정확한 제약 조건 만족 및 다중 정보 융합 능력을 갖춘 강력한 추론 시스템이 필요하다는 것을 시사합니다. PhotoBench는 공개적으로 제공됩니다.
Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.