2604.10114v1 Apr 11, 2026 cs.CL

CircuitSynth: 신뢰성 있는 합성 데이터 생성

CircuitSynth: Reliable Synthetic Data Generation

Zehua Cheng
Zehua Cheng
Citations: 26
h-index: 3
Wei Dai
Wei Dai
Citations: 15
h-index: 2
Jiahao Sun
Jiahao Sun
Citations: 15
h-index: 2
Thomas Lukasiewicz
Thomas Lukasiewicz
Citations: 4
h-index: 1

고품질의 합성 데이터 생성은 현대 머신러닝의 핵심이지만, 대규모 언어 모델(LLM)은 구조화된 데이터 생성 작업에서 종종 환각, 논리적 불일치, 모드 붕괴 현상을 겪습니다. 프롬프팅 또는 검색 기반 생성과 같은 기존 방법은 언어적 표현력과 유효성 및 보장 범위에 대한 형식적 제약 조건을 균형 있게 유지할 수 있는 메커니즘이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 의미 추론과 표면 표현을 분리하는 새로운 신경-기호 프레임워크인 CircuitSynth를 제안합니다. CircuitSynth는 교사 LLM의 추론 능력을 확률적 문장 결정 다이어그램(PSDD)으로 추출하여, 구조적으로 엄격한 논리적 제약을 부과하는 추론 가능하고 의미 있는 사전 지식을 생성합니다. 또한, CircuitSynth는 분포 목표를 엄격하게 만족시키기 위한 볼록 최적화 메커니즘을 도입합니다. 다양한 벤치마크에서의 실험 결과는 CircuitSynth가 복잡한 논리 퍼즐에서 기준 모델(12.4%)이 실패하는 경우에도 100%의 스키마 유효성을 달성하며, 희귀 조합에 대한 커버리지 측면에서 최첨단 방법보다 훨씬 뛰어난 성능을 보임을 보여줍니다.

Original Abstract

The generation of high-fidelity synthetic data is a cornerstone of modern machine learning, yet Large Language Models (LLMs) frequently suffer from hallucinations, logical inconsistencies, and mode collapse when tasked with structured generation. Existing approaches, such as prompting or retrieval-augmented generation, lack the mechanisms to balance linguistic expressivity with formal guarantees regarding validity and coverage. To address this, we propose CircuitSynth, a novel neuro-symbolic framework that decouples semantic reasoning from surface realization. By distilling the reasoning capabilities of a Teacher LLM into a Probabilistic Sentential Decision Diagram (PSDD), CircuitSynth creates a tractable semantic prior that structurally enforces hard logical constraints. Furthermore, we introduce a convex optimization mechanism to rigorously satisfy soft distributional goals. Empirical evaluations across diverse benchmarks demonstrate that CircuitSynth achieves 100% Schema Validity even in complex logic puzzles where unconstrained baselines fail (12.4%) while significantly outperforming state-of-the-art methods in rare-combination coverage.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!