2601.13697v1 Jan 20, 2026 cs.CL

불확실성을 고려한 기울기 신호-잡음 비율 데이터 선택 방법: Instruction Tuning을 위한 접근 방식

Uncertainty-Aware Gradient Signal-to-Noise Data Selection for Instruction Tuning

Longtao Huang
Longtao Huang
Citations: 16
h-index: 3
Litu Ou
Litu Ou
Citations: 769
h-index: 7
Zhihang Yuan
Zhihang Yuan
Citations: 572
h-index: 9
C. Yue
C. Yue
Citations: 6
h-index: 1
Lei Shi
Lei Shi
Citations: 0
h-index: 0

Instruction tuning은 대규모 언어 모델(LLM)을 학습시키는 표준적인 방법이지만, 현대의 instruction 데이터셋은 크고, 노이즈가 많으며, 중복되는 경향이 있어 전체 데이터셋을 사용하는 fine-tuning은 비용이 많이 들고 불필요한 경우가 많습니다. 기존의 데이터 선택 방법들은 비싼 기울기 데이터 저장소를 구축하거나, 약한 프록시를 사용하여 정적인 점수를 부여하는 방식으로, 변화하는 불확실성을 고려하지 않아 LLM의 해석 가능성에서 중요한 부분을 놓치고 있습니다. 본 논문에서는 불확실성을 고려한 데이터 선택 프레임워크인 GRADFILTERING을 제안합니다. 이는 목표에 관계없이 적용 가능하며, 작은 GPT-2 프록시와 LoRA 앙상블을 사용하여 각 데이터 샘플에 대한 기울기를 Gradient Signal-to-Noise Ratio (G-SNR) 유틸리티로 통합합니다. 저희 방법은 대부분의 LLM-as-a-judge 평가 및 인간 평가에서 무작위 샘플 및 강력한 기준 모델과 동등하거나 더 나은 성능을 보입니다. 또한, 동일한 컴퓨팅 예산을 사용할 때, GRADFILTERING으로 선택된 데이터셋은 경쟁적인 필터보다 빠르게 수렴하며, 이는 불확실성을 고려한 점수 부여의 이점을 반영합니다.

Original Abstract

Instruction tuning is a standard paradigm for adapting large language models (LLMs), but modern instruction datasets are large, noisy, and redundant, making full-data fine-tuning costly and often unnecessary. Existing data selection methods either build expensive gradient datastores or assign static scores from a weak proxy, largely ignoring evolving uncertainty, and thus missing a key source of LLM interpretability. We propose GRADFILTERING, an objective-agnostic, uncertainty-aware data selection framework that utilizes a small GPT-2 proxy with a LoRA ensemble and aggregates per-example gradients into a Gradient Signal-to-Noise Ratio (G-SNR) utility. Our method matches or surpasses random subsets and strong baselines in most LLM-as-a-judge evaluations as well as in human assessment. Moreover, GRADFILTERING-selected subsets converge faster than competitive filters under the same compute budget, reflecting the benefit of uncertainty-aware scoring.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!