심층 정보 통합을 위한 벤치마크
A Benchmark for Deep Information Synthesis
대규모 언어 모델(LLM) 기반 에이전트는 웹 검색, 코드 실행, 데이터 분석과 같은 도구 사용을 포함하는 복잡한 작업을 해결하는 데 점점 더 많이 사용되고 있습니다. 그러나 현재의 평가 벤치마크는 여러 출처에서 정보를 통합하고 단순한 사실 검색을 넘어선 통찰력을 추론하는 데 필요한 실제 작업 해결 능력을 충분히 평가하지 못합니다. 이를 해결하기 위해, 우리는 정보 수집, 통합, 구조화된 추론을 통해 통찰력을 도출하는 현실적이고 시간 소모적인 문제에 대한 에이전트의 성능을 평가하도록 설계된 새로운 벤치마크인 DEEPSYNTH를 소개합니다. DEEPSYNTH는 7개 도메인 및 데이터 소스를 포괄하며, 67개 국가의 120개의 작업으로 구성되어 있습니다. DEEPSYNTH는 다단계 데이터 수집 파이프라인을 사용하여 구축되었으며, 어노테이터가 공식 데이터 소스를 수집하고, 가설을 생성하고, 수동 분석을 수행하고, 검증 가능한 답변이 있는 작업을 설계하도록 요구합니다. DEEPSYNTH를 사용하여 평가한 11개의 최첨단 LLM 및 연구용 에이전트는 각각 최대 F1 점수가 8.97과 17.5로, LLM-judge 메트릭에서 낮은 점수를 기록하여 벤치마크의 어려움을 보여줍니다. 우리의 분석 결과, 현재 에이전트는 환각 현상과 방대한 정보 공간에 대한 추론에 어려움을 겪으며, 이는 DEEPSYNTH가 향후 연구를 위한 중요한 벤치마크임을 강조합니다.
Large language model (LLM)-based agents are increasingly used to solve complex tasks involving tool use, such as web browsing, code execution, and data analysis. However, current evaluation benchmarks do not adequately assess their ability to solve real-world tasks that require synthesizing information from multiple sources and inferring insights beyond simple fact retrieval. To address this, we introduce DEEPSYNTH, a novel benchmark designed to evaluate agents on realistic, time-consuming problems that combine information gathering, synthesis, and structured reasoning to produce insights. DEEPSYNTH contains 120 tasks collected across 7 domains and data sources covering 67 countries. DEEPSYNTH is constructed using a multi-stage data collection pipeline that requires annotators to collect official data sources, create hypotheses, perform manual analysis, and design tasks with verifiable answers. When evaluated on DEEPSYNTH, 11 state-of-the-art LLMs and deep research agents achieve a maximum F1 score of 8.97 and 17.5 on the LLM-judge metric, underscoring the difficulty of the benchmark. Our analysis reveals that current agents struggle with hallucinations and reasoning over large information spaces, highlighting DEEPSYNTH as a crucial benchmark for guiding future research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.