2601.17058v1 Jan 22, 2026 cs.DB

LLM은 여러분의 데이터를 정리해 줄 수 있을까요? LLM을 활용한 애플리케이션에 바로 사용할 수 있는 데이터 전처리 연구

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Guoliang Li
Guoliang Li
Citations: 300
h-index: 9
Yeye He
Yeye He
Citations: 11
h-index: 1
Conghui He
Conghui He
Citations: 10,747
h-index: 32
Zirui Tang
Zirui Tang
Citations: 55
h-index: 4
Xuanhe Zhou
Xuanhe Zhou
Citations: 1,547
h-index: 20
Wei-Feng Zhou
Wei-Feng Zhou
Citations: 0
h-index: 0
Jun Zhou
Jun Zhou
Citations: 1
h-index: 1
Haoyu Wang
Haoyu Wang
Citations: 1
h-index: 1
Zhenghao Li
Zhenghao Li
Citations: 291
h-index: 3
Qi He
Qi He
Citations: 566
h-index: 3
Shaokun Han
Shaokun Han
Citations: 28
h-index: 4
Chunwei Liu
Chunwei Liu
MIT CSAIL
Citations: 445
h-index: 11
Bin Wang
Bin Wang
Citations: 160
h-index: 6
Shengju Tang
Shengju Tang
Citations: 1
h-index: 1
Kai Zuo
Kai Zuo
Citations: 9
h-index: 2
Yuyu Luo
Yuyu Luo
Citations: 0
h-index: 0
Zhenzhe Zheng
Zhenzhe Zheng
Citations: 1,843
h-index: 25
Jingren Zhou
Jingren Zhou
Citations: 18
h-index: 3
Fan Wu
Fan Wu
Citations: 17
h-index: 2

데이터 전처리는 원시 데이터 세트의 노이즈를 제거하고, 데이터 세트 간의 관계를 파악하며, 유용한 정보를 추출하는 것을 목표로 하며, 이는 광범위한 데이터 중심 애플리케이션에 필수적입니다. 애플리케이션에 바로 사용할 수 있는 데이터(예: 분석, 시각화, 의사 결정)에 대한 수요 증가, 점점 더 강력해지는 LLM 기술, 그리고 유연한 에이전트 구축을 지원하는 인프라(예: Databricks Unity Catalog)의 등장에 힘입어, LLM 기반 방법은 데이터 전처리 분야에서 혁신적이고 잠재적으로 지배적인 패러다임으로 빠르게 자리 잡고 있습니다. 본 논문은 수백 건의 최근 연구 자료를 조사하여, LLM 기술을 활용하여 다양한 후속 작업에 데이터를 준비하는 데 중점을 둔, 이 변화하는 환경에 대한 체계적인 검토를 제공합니다. 먼저, 규칙 기반, 모델 특정 파이프라인에서 프롬프트 기반, 문맥 인식, 에이전트 기반 전처리 워크플로우로의 근본적인 패러다임 변화를 분석합니다. 다음으로, 데이터 정제(예: 표준화, 오류 처리, 대체), 데이터 통합(예: 개체 매칭, 스키마 매칭), 데이터 풍부화(예: 데이터 주석, 프로파일링)의 세 가지 주요 작업으로 분야를 분류하는 작업 중심 분류 체계를 제시합니다. 각 작업에 대해 대표적인 기술을 조사하고, 각 기술의 장점(예: 일반화 성능 향상, 의미론적 이해)과 한계(예: LLM 확장의 높은 비용, 고급 에이전트에서도 지속되는 환각 현상, 고급 방법과 취약한 평가 지표 간의 불일치)를 강조합니다. 또한, 널리 사용되는 데이터 세트 및 평가 지표를 분석합니다. 마지막으로, 해결해야 할 연구 과제를 논의하고, 확장 가능한 LLM-데이터 시스템, 신뢰할 수 있는 에이전트 워크플로우를 위한 원칙 있는 설계, 그리고 견고한 평가 프로토콜을 강조하는 미래 지향적인 로드맵을 제시합니다.

Original Abstract

Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation. By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.

0 Citations
0 Influential
16 Altmetric
80.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!