2602.02039v1 Feb 02, 2026 cs.AI

기다리지 말고 사냥하라: 거대 언어 모델의 심층 데이터 연구 평가

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Wei Liu
Wei Liu
Citations: 62
h-index: 5
Peijie Yu
Peijie Yu
Citations: 24
h-index: 2
Yali Du
Yali Du
Citations: 118
h-index: 2
Yulan He
Yulan He
Citations: 289
h-index: 4
M. Orini
M. Orini
Citations: 101
h-index: 5

에이전트형 거대 언어 모델에 기대되는 주체성은 단순히 정답을 맞히는 것을 넘어, 목표를 설정하고 무엇을 탐구할지 결정하는 자율성을 요구한다. 우리는 이를 할당된 작업을 단순히 완수하는 '실행 지능(executional intelligence)'과 구별하여 '탐구 지능(investigatory intelligence)'이라 명명한다. 데이터 과학은 실제 분석이 명시적인 질의가 아닌 원시 데이터에서 시작된다는 점에서 자연스러운 시험대를 제공하지만, 이에 초점을 맞춘 벤치마크는 드물다. 이를 해결하기 위해, 우리는 LLM이 데이터베이스에서 자율적으로 핵심 통찰을 추출하는 개방형 과제인 '심층 데이터 연구(Deep Data Research, DDR)'와 검증 가능한 평가를 가능케 하는 대규모 체크리스트 기반 벤치마크인 'DDR-Bench'를 소개한다. 실험 결과, 프론티어 모델들이 주체성의 징후를 보이고는 있으나 장기적인 탐색은 여전히 어려운 과제로 남아 있음이 드러났다. 우리의 분석은 효과적인 탐구 지능이 에이전트 스캐폴딩이나 단순한 모델 확장에만 달려 있는 것이 아니라, 에이전트형 모델의 내재적 전략에도 좌우된다는 점을 강조한다.

Original Abstract

The agency expected of Agentic Large Language Models goes beyond answering correctly, requiring autonomy to set goals and decide what to explore. We term this investigatory intelligence, distinguishing it from executional intelligence, which merely completes assigned tasks. Data Science provides a natural testbed, as real-world analysis starts from raw data rather than explicit queries, yet few benchmarks focus on it. To address this, we introduce Deep Data Research (DDR), an open-ended task where LLMs autonomously extract key insights from databases, and DDR-Bench, a large-scale, checklist-based benchmark that enables verifiable evaluation. Results show that while frontier models display emerging agency, long-horizon exploration remains challenging. Our analysis highlights that effective investigatory intelligence depends not only on agent scaffolding or merely scaling, but also on intrinsic strategies of agentic models.

1 Citations
0 Influential
2.5 Altmetric
13.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!