DSAEval: 다양한 실제 데이터 과학 문제에 대한 데이터 과학 에이전트 평가
DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems
최근 LLM 기반 데이터 에이전트는 데이터 분석부터 딥러닝에 이르기까지 다양한 데이터 과학 작업을 자동화하는 것을 목표로 합니다. 그러나 실제 데이터 과학 문제는 종종 여러 범주에 걸쳐 있으며 표준적인 답이 없는 개방형 특성을 가지기 때문에 평가에 상당한 어려움을 야기합니다. 이러한 문제를 해결하기 위해, 우리는 285개의 다양한 데이터 세트에 기반한 641개의 실제 데이터 과학 문제로 구성된 벤치마크인 DSAEval을 소개합니다. DSAEval은 정형 및 비정형 데이터(예: 이미지 및 텍스트)를 모두 포함합니다. DSAEval은 다음과 같은 세 가지 뚜렷한 특징을 포함합니다. (1) 다중 모드 환경 인식, 이를 통해 에이전트는 텍스트 및 이미지 등 여러 모드의 관찰 내용을 해석할 수 있습니다. (2) 다중 쿼리 상호 작용, 이는 실제 데이터 과학 프로젝트의 반복적이고 누적적인 특성을 반영합니다. (3) 다차원 평가, 이는 추론, 코드 및 결과에 대한 포괄적인 평가를 제공합니다. 우리는 DSAEval을 사용하여 11개의 고급 에이전트 LLM을 체계적으로 평가했습니다. 우리의 결과에 따르면 Claude-Sonnet-4.5가 가장 뛰어난 전반적인 성능을 보였고, GPT-5.2가 가장 효율적이며, MiMo-V2-Flash가 가장 비용 효율적입니다. 또한 다중 모드 인식은 이미지 관련 작업에서 성능을 지속적으로 향상시키며, 그 향상 폭은 2.04%에서 11.30%에 이릅니다. 전반적으로 현재 데이터 과학 에이전트는 정형 데이터 및 일반적인 데이터 분석 워크플로우에서 잘 작동하지만, 비정형 도메인에서는 여전히 상당한 과제가 남아 있습니다. 마지막으로, 우리는 데이터 과학 에이전트 개발을 발전시키기 위한 중요한 통찰력을 제공하고 향후 연구 방향을 제시합니다.
Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.