GISA: 일반 정보 검색 지원 시스템을 위한 벤치마크
GISA: A Benchmark for General Information-Seeking Assistant
대규모 언어 모델(LLM)의 발전은 웹과의 다중 라운드 상호 작용을 통해 자율적으로 정보를 수집하는 검색 에이전트 개발을 크게 가속화했습니다. 이러한 에이전트를 평가하기 위한 다양한 벤치마크가 제안되었지만, 기존 벤치마크는 종종 답변으로부터 역으로 쿼리를 구성하여 실제 요구 사항과 일치하지 않는 비자연적인 작업을 생성합니다. 또한, 이러한 벤치마크는 특정 정보 검색 또는 여러 소스에서 정보 집계를 중심으로 하는 경향이 있으며, 데이터 오염에 취약한 정적 답변 세트에 의존합니다. 이러한 격차를 해소하기 위해, 우리는 실제 정보 검색 시나리오를 반영하는 373개의 사람이 직접 작성한 쿼리로 구성된 일반 정보 검색 지원 시스템 벤치마크인 GISA를 소개합니다. GISA는 항목, 집합, 목록, 테이블의 네 가지 구조화된 답변 형식을 특징으로 하며, 이를 통해 결정적인 평가가 가능합니다. GISA는 심층적인 추론과 광범위한 정보 집계를 통합된 작업 내에서 수행하며, 암기를 방지하기 위해 주기적으로 업데이트되는 실시간 데이터 세트를 포함합니다. 특히, GISA는 모든 쿼리에 대한 완전한 인간 검색 경로를 제공하여 프로세스 수준의 감독 및 모방 학습을 위한 표준 참조를 제공합니다. 주류 LLM 및 상용 검색 제품에 대한 실험 결과, 가장 성능이 좋은 모델조차도 정확히 일치하는 점수가 19.30%에 불과하며, 복잡한 계획과 포괄적인 정보 수집이 필요한 작업에서 성능이 현저하게 저하되는 것으로 나타났습니다. 이러한 결과는 향후 개선을 위한 상당한 여지가 있음을 시사합니다.
The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.