불확실성을 고려한 기울기 신호-잡음 비율 데이터 선택 방법: Instruction Tuning을 위한 접근 방식
Uncertainty-Aware Gradient Signal-to-Noise Data Selection for Instruction Tuning
Instruction tuning은 대규모 언어 모델(LLM)을 학습시키는 표준적인 방법이지만, 현대의 instruction 데이터셋은 크고, 노이즈가 많으며, 중복되는 경향이 있어 전체 데이터셋을 사용하는 fine-tuning은 비용이 많이 들고 불필요한 경우가 많습니다. 기존의 데이터 선택 방법들은 비싼 기울기 데이터 저장소를 구축하거나, 약한 프록시를 사용하여 정적인 점수를 부여하는 방식으로, 변화하는 불확실성을 고려하지 않아 LLM의 해석 가능성에서 중요한 부분을 놓치고 있습니다. 본 논문에서는 불확실성을 고려한 데이터 선택 프레임워크인 GRADFILTERING을 제안합니다. 이는 목표에 관계없이 적용 가능하며, 작은 GPT-2 프록시와 LoRA 앙상블을 사용하여 각 데이터 샘플에 대한 기울기를 Gradient Signal-to-Noise Ratio (G-SNR) 유틸리티로 통합합니다. 저희 방법은 대부분의 LLM-as-a-judge 평가 및 인간 평가에서 무작위 샘플 및 강력한 기준 모델과 동등하거나 더 나은 성능을 보입니다. 또한, 동일한 컴퓨팅 예산을 사용할 때, GRADFILTERING으로 선택된 데이터셋은 경쟁적인 필터보다 빠르게 수렴하며, 이는 불확실성을 고려한 점수 부여의 이점을 반영합니다.
Instruction tuning is a standard paradigm for adapting large language models (LLMs), but modern instruction datasets are large, noisy, and redundant, making full-data fine-tuning costly and often unnecessary. Existing data selection methods either build expensive gradient datastores or assign static scores from a weak proxy, largely ignoring evolving uncertainty, and thus missing a key source of LLM interpretability. We propose GRADFILTERING, an objective-agnostic, uncertainty-aware data selection framework that utilizes a small GPT-2 proxy with a LoRA ensemble and aggregates per-example gradients into a Gradient Signal-to-Noise Ratio (G-SNR) utility. Our method matches or surpasses random subsets and strong baselines in most LLM-as-a-judge evaluations as well as in human assessment. Moreover, GRADFILTERING-selected subsets converge faster than competitive filters under the same compute budget, reflecting the benefit of uncertainty-aware scoring.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.