Optimsyn: 영향력 기반 채점 기준 최적화를 통한 합성 데이터 생성
Optimsyn: Influence-Guided Rubrics Optimization for Synthetic Data Generation
대규모 언어 모델(LLM)은 풍부한 지도 학습(SFT) 데이터 덕분에 뛰어난 성능을 보입니다. 그러나 인문학, 사회 과학, 의학, 법률, 금융 등 지식 집약적인 분야에서 고품질의 SFT 데이터는 전문가의 검토가 비싸고, 개인 정보 보호 제약이 엄격하며, 레이블 일관성을 확보하기 어렵기 때문에 부족한 경우가 많습니다. 최근 연구에서는 도메인 문서에 기반하여 생성기를 사용하고, 수작업으로 만든 채점 기준을 통해 결과를 필터링하는 방식으로 합성 데이터를 활용합니다. 그러나 채점 기준 설계는 전문가에 의존적이며, 도메인 간에 잘 전달되지 않고, 종종 채점 기준 작성, 데이터 생성, 학습, 결과 검토 및 수동 수정이라는 불안정한 휴리스틱 루프를 통해 최적화됩니다. 이러한 과정은 채점 기준이 다운스트림 성능에 미치는 영향에 대한 신뢰할 수 있는 정량적 피드백을 제공하지 않습니다. 본 연구에서는 합성 데이터를 대상 모델의 학습 유용성을 기준으로 평가하고, 이 정보를 사용하여 데이터 생성을 안내하는 방법을 제안합니다. 영향력 추정에서 영감을 받아, 최적화 알고리즘을 고려한 추정기를 사용하여 각 합성 샘플이 특정 작업에서 대상 모델의 목표에 얼마나 기여하는지를 정량화합니다. 분석 결과, 합성 샘플과 실제 샘플이 임베딩 공간에서 가깝더라도, 학습에 미치는 영향이 크게 다를 수 있음을 확인했습니다. 이러한 통찰력을 바탕으로, 대상 모델의 피드백을 사용하여 채점 기준을 조정하는 최적화 기반 프레임워크를 제안합니다. 경량의 안내 텍스트를 사용하고, 작업에 특화된 모델을 사용하여 작업 조건에 맞는 채점 기준을 생성합니다. 영향력 점수를 보상으로 사용하여 강화 학습을 통해 채점 기준 생성기를 최적화합니다. 다양한 도메인, 대상 모델 및 데이터 생성기를 사용한 실험 결과, 작업별 조정 없이도 일관된 성능 향상과 강력한 일반화 능력을 보였습니다.
Large language models (LLMs) achieve strong downstream performance largely due to abundant supervised fine-tuning (SFT) data. However, high-quality SFT data in knowledge-intensive domains such as humanities, social sciences, medicine, law, and finance is scarce because expert curation is expensive, privacy constraints are strict, and label consistency is hard to ensure. Recent work uses synthetic data, typically by prompting a generator over domain documents and filtering outputs with handcrafted rubrics. Yet rubric design is expert-dependent, transfers poorly across domains, and is often optimized through a brittle heuristic loop of writing rubrics, synthesizing data, training, inspecting results, and manually guessing revisions. This process lacks reliable quantitative feedback about how a rubric affects downstream performance. We propose evaluating synthetic data by its training utility on the target model and using this signal to guide data generation. Inspired by influence estimation, we adopt an optimizer-aware estimator that uses gradient information to quantify each synthetic sample's contribution to a target model's objective on specific tasks. Our analysis shows that even when synthetic and real samples are close in embedding space, their influence on learning can differ substantially. Based on this insight, we propose an optimization-based framework that adapts rubrics using target-model feedback. We provide lightweight guiding text and use a rubric-specialized model to generate task-conditioned rubrics. Influence score is used as the reward to optimize the rubric generator with reinforcement learning. Experiments across domains, target models, and data generators show consistent improvements and strong generalization without task-specific tuning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.