GIST: 결합된 최적화 기하학을 활용한 인스트럭션 튜닝용 타겟 데이터 선택
GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry
타겟 데이터 선택은 특정 타겟 태스크에 대해 작지만 영향력 있는 학습 예제의 부분집합을 식별하는 것을 목표로 하며, 효율적인 인스트럭션 튜닝을 위한 중요한 패러다임으로 부상했다. 실제 환경에서 영향력은 주로 예제가 파라미터 업데이트에 미치는 효과를 통해 측정된다. 선택 과정의 확장성을 높이기 위해, 많은 방법론은 파라미터들이 좌표별로 독립적이라고 암묵적으로 가정하며 옵티마이저 통계(예: Adam 상태)를 업데이트 기하학의 축 정렬 대용물(즉, 대각 프리컨디셔너)로 활용한다. 우리는 이러한 가정이 LoRA와 같은 파라미터 효율적 미세조정(PEFT) 방법에서는 성립하지 않음을 보여준다. 이러한 환경에서 유도된 최적화 기하학은 상당한 비대각 상호작용을 동반하는 강한 교차 파라미터 결합을 나타내는 반면, 태스크 관련 업데이트 방향은 저차원 부분 공간에 국한된다. 이러한 불일치에서 착안하여, 우리는 축 정렬 스케일링을 강건한 부분 공간 정렬로 대체하는 단순하면서도 원칙적인 대안인 GIST(Gradient Isometric Subspace Transformation)를 제안한다. GIST는 스펙트럼 필터링(SVD)을 통해 검증 그래디언트로부터 태스크에 특화된 부분 공간을 복원하고, 학습 그래디언트를 이 결합된 부분 공간에 투영한 다음, 타겟 방향과의 정렬 정도에 따라 예제들의 점수를 매긴다. 광범위한 실험을 통해 GIST가 동일한 데이터 선택 예산 하에서 최신 베이스라인과 필적하거나 이를 능가하는 성능을 보이면서도, 단 0.29%의 저장 공간과 25%의 계산 시간만을 필요로 함을 입증했다.
Targeted data selection has emerged as a crucial paradigm for efficient instruction tuning, aiming to identify a small yet influential subset of training examples for a specific target task. In practice, influence is often measured through the effect of an example on parameter updates. To make selection scalable, many approaches leverage optimizer statistics (e.g., Adam states) as an axis-aligned surrogate for update geometry (i.e., diagonal precondition), implicitly treating parameters as coordinate-wise independent. We show that this assumption breaks down in parameter-efficient fine-tuning (PEFT) methods such as LoRA. In this setting, the induced optimization geometry exhibits strong cross-parameter coupling with non-trivial off-diagonal interactions, while the task-relevant update directions are confined to a low-dimensional subspace. Motivated by this mismatch, we propose GIST (Gradient Isometric Subspace Transformation), a simple yet principled alternative that replaces axis-aligned scaling with robust subspace alignment. GIST recovers a task-specific subspace from validation gradients via spectral filtering (SVD), projects training gradients into this coupled subspace, and scores examples by their alignment with target directions.Extensive experiments have demonstrated that GIST matches or outperforms the state-of-the-art baseline with only 0.29% of the storage and 25% of the computational time under the same selection budget.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.