LongDA: 긴 문서 데이터 분석을 위한 LLM 에이전트 벤치마킹
LongDA: Benchmarking LLM Agents for Long-Document Data Analysis
본 논문에서는 문서 기반 분석 워크플로우 환경에서 LLM 기반 에이전트를 평가하기 위한 데이터 분석 벤치마크인 LongDA를 소개합니다. 기존 벤치마크는 잘 정의된 스키마와 입력값을 가정하는 반면, LongDA는 긴 문서와 복잡한 데이터를 탐색하는 것이 주요 병목 현상인 실제 환경을 대상으로 합니다. 이를 위해, 우리는 17개의 공개된 미국 국가 설문조사에서 수집된 원시 데이터 파일, 긴 텍스트 문서, 전문가가 작성한 출판물을 수동으로 큐레이션하고, 이를 바탕으로 실제 분석 환경에서 발생하는 505개의 분석 쿼리를 추출했습니다. 이러한 쿼리를 해결하기 위해서는 에이전트가 먼저 여러 비정형 문서에서 핵심 정보를 검색하고 통합한 후, 다단계 계산을 수행하고 실행 가능한 코드를 작성해야 하며, 이는 기존 데이터 분석 에이전트에게 여전히 어려운 과제입니다. 이러한 환경에서의 체계적인 평가를 지원하기 위해, 문서 접근, 검색 및 코드 실행 기능을 제공하는 도구 기반 에이전트 프레임워크인 LongTA를 개발하고, 다양한 독점 및 오픈 소스 모델을 평가했습니다. 실험 결과, 최첨단 모델 간에도 상당한 성능 격차가 존재함을 보여주며, 연구자들은 실제 환경의 고위험 분석 작업에 LLM 에이전트를 적용하기 전에 고려해야 할 과제들을 강조합니다.
We introduce LongDA, a data analysis benchmark for evaluating LLM-based agents under documentation-intensive analytical workflows. In contrast to existing benchmarks that assume well-specified schemas and inputs, LongDA targets real-world settings in which navigating long documentation and complex data is the primary bottleneck. To this end, we manually curate raw data files, long and heterogeneous documentation, and expert-written publications from 17 publicly available U.S. national surveys, from which we extract 505 analytical queries grounded in real analytical practice. Solving these queries requires agents to first retrieve and integrate key information from multiple unstructured documents, before performing multi-step computations and writing executable code, which remains challenging for existing data analysis agents. To support the systematic evaluation under this setting, we develop LongTA, a tool-augmented agent framework that enables document access, retrieval, and code execution, and evaluate a range of proprietary and open-source models. Our experiments reveal substantial performance gaps even among state-of-the-art models, highlighting the challenges researchers should consider before applying LLM agents for decision support in real-world, high-stakes analytical settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.