LLM 데이터 감사 시스템: 합성 데이터의 품질 및 신뢰성 평가를 위한 지표 중심 연구
The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data
대규모 언어 모델(LLM)은 다양한 방식으로 데이터를 생성하는 강력한 도구로 부상했습니다. LLM은 실제 데이터 획득 비용으로 인한 병목 현상을 완화하여, 데이터를 희소한 자원에서 통제 가능한 자원으로 변환함으로써 모델 훈련, 평가 및 시스템 반복을 위한 기반을 제공합니다. 그러나 LLM이 생성한 합성 데이터의 높은 품질을 보장하는 것은 여전히 중요한 과제입니다. 기존 연구는 주로 데이터 생성 방법론에 초점을 맞추고 있으며, 결과 데이터의 품질에 대한 직접적인 관심은 부족합니다. 또한, 대부분의 연구는 단일 모달리티에 국한되어 있으며, 다양한 데이터 유형에 대한 통합적인 관점을 제공하지 못합니다. 이러한 간극을 해소하기 위해, 우리는 extbf{LLM 데이터 감사 시스템} 프레임워크를 제안합니다. 이 프레임워크에서, 우리는 먼저 LLM이 어떻게 6가지 서로 다른 모달리티에 걸쳐 데이터를 생성하는 데 사용되는지 설명합니다. 더욱 중요하게는, 우리는 합성 데이터의 품질과 신뢰성을 평가하기 위한 내재적 지표를 두 가지 차원으로 체계적으로 분류합니다. 이 접근 방식은 다운스트림 작업 성능에 의존하는 외재적 평가에서 벗어나, 데이터 자체의 고유한 특성에 초점을 맞춥니다. 이 평가 시스템을 사용하여, 각 모달리티에 대한 대표적인 생성 방법의 실험적 평가를 분석하고, 현재 평가 방식의 상당한 결점을 파악합니다. 이러한 결과를 바탕으로, 데이터 생성 평가를 개선하기 위한 구체적인 권장 사항을 제시합니다. 마지막으로, 이 프레임워크는 다양한 모달리티에서 합성 데이터를 실용적으로 적용하기 위한 방법론을 제시합니다.
Large Language Models (LLMs) have emerged as powerful tools for generating data across various modalities. By transforming data from a scarce resource into a controllable asset, LLMs mitigate the bottlenecks imposed by the acquisition costs of real-world data for model training, evaluation, and system iteration. However, ensuring the high quality of LLM-generated synthetic data remains a critical challenge. Existing research primarily focuses on generation methodologies, with limited direct attention to the quality of the resulting data. Furthermore, most studies are restricted to single modalities, lacking a unified perspective across different data types. To bridge this gap, we propose the \textbf{LLM Data Auditor framework}. In this framework, we first describe how LLMs are utilized to generate data across six distinct modalities. More importantly, we systematically categorize intrinsic metrics for evaluating synthetic data from two dimensions: quality and trustworthiness. This approach shifts the focus from extrinsic evaluation, which relies on downstream task performance, to the inherent properties of the data itself. Using this evaluation system, we analyze the experimental evaluations of representative generation methods for each modality and identify substantial deficiencies in current evaluation practices. Based on these findings, we offer concrete recommendations for the community to improve the evaluation of data generation. Finally, the framework outlines methodologies for the practical application of synthetic data across different modalities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.