MERRIN: 노이즈가 많은 웹 환경에서의 다중 모드 증거 검색 및 추론을 위한 벤치마크
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
본 논문에서는 검색 쿼리의 불명확하고 다단계적인 특성, 그리고 실제 웹 검색 결과의 다중 모드, 이질적이며 종종 상충되는 특성에 주목하여, 검색 증강 에이전트를 평가하기 위한 인간이 직접 레이블링한 벤치마크인 MERRIN(Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments)을 소개합니다. MERRIN은 AI 에이전트가 관련 모드를 식별하고, 다중 모드 증거를 검색하며, 노이즈가 많은 웹 소스를 기반으로 다단계 추론을 수행하는 능력을 측정합니다. MERRIN은 기존 연구와 세 가지 중요한 측면에서 차별점을 갖습니다. 첫째, 명시적인 모드 힌트 없이 자연어 쿼리를 사용합니다. 둘째, 비디오 및 오디오와 같이 덜 탐구된 모드를 포함합니다. 셋째, 웹 검색 과정에서 복잡하고, 종종 노이즈가 있거나 상충되는 다중 모드 증거를 검색해야 합니다. 우리는 GPT-5.4-mini, Gemini 3/3.1 Flash/Pro와 같은 강력한 비공개 모델과 Qwen3-4B/30B/235B와 같은 공개 모델을 포함한 열 개의 모델로 구동되는 다양한 검색 에이전트를 세 가지 검색 환경(검색 미사용, 기본 검색, 에이전트 기반 검색)에서 평가했습니다. 우리의 결과는 MERRIN이 매우 어려운 과제임을 보여줍니다. 모든 에이전트의 평균 정확도는 22.3%이며, 가장 성능이 좋은 에이전트도 40.1%에 그쳤습니다. 또한, Gemini Deep Research와 같은 강력한 에이전트가 더 높은 성능을 보이지만, 과도한 탐색으로 인해 개선 효과가 미미합니다. 이러한 에이전트는 더 많은 단계를 거치고 더 많은 도구를 사용하지만, 종종 상충되거나 부분적으로 관련된 웹 콘텐츠에 의해 주의가 분산되어 잘못된 답변을 내놓는 경향이 있습니다. 인간에 비해 이러한 에이전트는 더 많은 리소스를 소비하지만 정확도가 낮으며, 이는 주로 비효율적인 소스 선택과 텍스트 모드에 대한 과도한 의존 때문입니다. 이러한 결과는 노이즈가 많은 웹 환경에서 다양한 모드에 걸쳐 강력한 검색 및 추론 능력을 갖춘 검색 에이전트의 필요성을 강조하며, MERRIN은 이러한 능력을 평가하기 위한 귀중한 테스트베드가 될 것입니다.
Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.