TabDLM: 수치-언어 결합 확산 모델을 통한 자유 형식 표 데이터 생성
TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion
합성 표 데이터 생성은 데이터 증강, 기초 모델 및 개인 정보 보호 측면에서 중요한 역할을 수행하며, 그 중요성이 점점 더 커지고 있습니다. 그러나 실제 표 데이터셋은 구조화된 수치 및 범주형 속성 외에도 리뷰나 임상 기록과 같은 자유 형식 텍스트 필드를 포함하는 경우가 많습니다. 이러한 이질적인 표를 다양한 모달리티를 결합하여 생성하는 것은 여전히 어려운 과제입니다. 기존 연구는 크게 확산 모델 기반 방법과 LLM 기반 방법으로 나눌 수 있습니다. 확산 모델은 연속 또는 이산 공간에서 수치 및 범주형 특성 간의 복잡한 의존성을 모델링할 수 있지만, 이를 자유 형식 텍스트로 확장하는 것은 어렵고 종종 텍스트 품질 저하를 초래합니다. 반면, LLM 기반 생성기는 자연스러운 텍스트를 생성하지만, 이산 토큰화 방식은 정밀하거나 넓은 범위의 수치 값을 왜곡하여 수치와 언어 모두를 정확하게 모델링하는 데 어려움을 겪습니다. 본 연구에서는 마스크 확산 언어 모델(MDLM)을 기반으로 수치-언어 결합 확산 모델을 활용하여 자유 형식 표 데이터 생성을 위한 통합 프레임워크인 TabDLM을 제안합니다. TabDLM은 마스크 확산을 통해 텍스트 및 범주형 특성을 모델링하고, 학습된 특수 숫자 토큰 임베딩을 통해 연속적인 확산 과정을 사용하여 수치 특성을 모델링합니다. 양방향 어텐션은 단일 모델 내에서 다양한 모달리티 간의 상호 작용을 포착합니다. 다양한 벤치마크에 대한 광범위한 실험 결과는 TabDLM이 기존의 강력한 확산 및 LLM 기반 모델보다 효과적임을 보여줍니다.
Synthetic tabular data generation has attracted growing attention due to its importance for data augmentation, foundation models, and privacy. However, real-world tabular datasets increasingly contain free-form text fields (e.g., reviews or clinical notes) alongside structured numerical and categorical attributes. Generating such heterogeneous tables with joint modeling of different modalities remains challenging. Existing approaches broadly fall into two categories: diffusion-based methods and LLM-based methods. Diffusion models can capture complex dependencies over numerical and categorical features in continuous or discrete spaces, but extending them to open-ended text is nontrivial and often leads to degraded text quality. In contrast, LLM-based generators naturally produce fluent text, yet their discrete tokenization can distort precise or wide-range numerical values, hindering accurate modeling of both numbers and language. In this work, we propose TabDLM, a unified framework for free-form tabular data generation via a joint numerical--language diffusion model built on masked diffusion language models (MDLMs). TabDLM models textual and categorical features through masked diffusion, while modeling numerical features with a continuous diffusion process through learned specialized numeric tokens embedding; bidirectional attention then captures cross-modality interactions within a single model. Extensive experiments on diverse benchmarks demonstrate the effectiveness of TabDLM compared to strong diffusion- and LLM-based baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.