병렬 세계 환경에서의 검색 에이전트 평가
Evaluating the Search Agent in a Parallel World
웹 검색 도구를 통합함으로써 LLM(Large Language Models, 거대 언어 모델)은 개방형, 실시간 및 장기적인 문제 해결 능력을 크게 향상시켰습니다. 그러나 이러한 검색 에이전트를 평가하는 것은 상당한 어려움을 안고 있습니다. 첫째, 고품질의 심층 검색 벤치마크를 구축하는 것은 매우 비용이 많이 들며, 검증되지 않은 합성 데이터는 종종 신뢰할 수 없는 출처에서 비롯됩니다. 둘째, 정적인 벤치마크는 동적인 노후화에 직면합니다. 인터넷 정보가 변화함에 따라, 심층적인 조사가 필요한 복잡한 쿼리는 종종 인기 증가로 인해 단순한 검색 작업으로 저하되고, 시간의 흐름에 따라 정답이 구식이 됩니다. 셋째, 출처 불명확성은 평가를 방해합니다. 에이전트의 성능은 종종 실제 검색 및 추론 능력보다는 매개변수 메모리에 의해 좌우되기 때문입니다. 마지막으로, 특정 상업용 검색 엔진에 대한 의존성은 재현성을 저해하는 변동성을 야기합니다. 이러한 문제점을 해결하기 위해, 우리는 병렬 세계 환경에서 검색 에이전트를 평가하기 위한 새로운 프레임워크인 Mind-ParaWorld를 제안합니다. 구체적으로, MPW는 실제 세계의 개체 이름을 사용하여 미래 시나리오와 모델의 지식 제한 범위를 벗어난 질문을 생성합니다. ParaWorld 법 모델은 분할 불가능한 기본 사실 집합과 각 질문에 대한 고유한 정답을 구성합니다. 평가 과정에서, 에이전트는 실제 웹 검색 결과를 검색하는 대신, 이러한 변경 불가능한 기본 사실을 기반으로 동적으로 생성된 검색 결과 페이지(SERPs)와 상호 작용하는 ParaWorld 엔진 모델과 상호 작용합니다. 우리는 19개 도메인에 걸쳐 1,608개의 인스턴스를 포함하는 대화형 벤치마크인 MPW-Bench를 공개합니다. 세 가지 평가 설정을 통한 실험 결과, 검색 에이전트는 완전한 정보가 주어지면 증거 종합에 강점을 보이지만, 익숙하지 않은 검색 환경에서의 증거 수집 및 범위, 신뢰할 수 없는 증거의 충분성 판단, 그리고 언제 검색을 중단해야 하는지에 대한 결정 등 여러 요인에 의해 성능이 제한됨을 알 수 있습니다.
Integrating web search tools has significantly extended the capability of LLMs to address open-world, real-time, and long-tail problems. However, evaluating these Search Agents presents formidable challenges. First, constructing high-quality deep search benchmarks is prohibitively expensive, while unverified synthetic data often suffers from unreliable sources. Second, static benchmarks face dynamic obsolescence: as internet information evolves, complex queries requiring deep research often degrade into simple retrieval tasks due to increased popularity, and ground truths become outdated due to temporal shifts. Third, attribution ambiguity confounds evaluation, as an agent's performance is often dominated by its parametric memory rather than its actual search and reasoning capabilities. Finally, reliance on specific commercial search engines introduces variability that hampers reproducibility. To address these issues, we propose a novel framework, Mind-ParaWorld, for evaluating Search Agents in a Parallel World. Specifically, MPW samples real-world entity names to synthesize future scenarios and questions situated beyond the model's knowledge cutoff. A ParaWorld Law Model then constructs a set of indivisible Atomic Facts and a unique ground-truth for each question. During evaluation, instead of retrieving real-world results, the agent interacts with a ParaWorld Engine Model that dynamically generates SERPs grounded in these inviolable Atomic Facts. We release MPW-Bench, an interactive benchmark spanning 19 domains with 1,608 instances. Experiments across three evaluation settings show that, while search agents are strong at evidence synthesis given complete information, their performance is limited not only by evidence collection and coverage in unfamiliar search environments, but also by unreliable evidence sufficiency judgment and when-to-stop decisions-bottlenecks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.