통찰력에서 실행으로: 대규모 언어 모델에서 해석 가능성을 활용한 데이터 선택을 위한 새로운 프레임워크
From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models
희소 오토인코더(SAE)와 같은 메커니즘 해석 도구는 대규모 언어 모델(LLM) 내에서 의미 있는 특징을 밝혀낼 수 있지만, 이러한 통찰력을 모델 최적화를 위한 실질적인 행동으로 전환하는 데는 여전히 중요한 격차가 존재합니다. 본 연구에서는 모델의 내부 작업 특징에 의해 안내되는 데이터 선택이 효과적인 학습 전략이라는 가설을 바탕으로 이러한 격차를 해소하고자 합니다. 이러한 점에 착안하여, 우리는 해석 가능성을 활용한 데이터 선택(IGDS)이라는 프레임워크를 제안합니다. IGDS는 먼저 빈도 재현 및 개입 필터링을 통해 이러한 인과적 작업 특징을 식별한 다음, 미세 조정에 가장 적합한 작업 특징을 최대한 활성화하는 "특징 공명 데이터"를 선택합니다. 우리는 Gemma-2, LLaMA-3.1, Qwen3 모델에서 수학적 추론, 요약 및 번역 작업에 대해 IGDS를 검증했습니다. 실험 결과, IGDS는 뛰어난 데이터 효율성을 보여주었습니다. 예를 들어, Math 작업에서 IGDS는 전체 데이터 세트를 사용한 미세 조정보다 Gemma-2-2B 모델에서 17.4% 더 높은 성능을 보였으며, 이는 데이터 사용량을 50%만 사용했을 때 달성한 결과입니다. 또한, IGDS는 데이터 품질 및 다양성에 중점을 둔 기존 방법보다 우수한 성능을 보였습니다. 분석 결과, 특징 증폭과 작업 성능 향상 사이에는 강력한 양의 상관관계가 있음을 확인했습니다. 따라서 IGDS는 LLM의 내부 메커니즘을 활용하여 LLM을 향상시키는 직접적이고 효과적인 프레임워크를 제공하며, 본 연구의 핵심 가설을 검증합니다.
While mechanistic interpretability tools like Sparse Autoencoders (SAEs) can uncover meaningful features within Large Language Models (LLMs), a critical gap remains in transforming these insights into practical actions for model optimization. We bridge this gap with the hypothesis that data selection guided by a model's internal task features is a effective training strategy. Inspired by this, we propose Interpretability-Guided Data Selection (IGDS), a framework that first identifies these causal task features through frequency recall and interventional filtering, then selects ``Feature-Resonant Data'' that maximally activates task features for fine-tuning. We validate IGDS on mathematical reasoning, summarization, and translation tasks within Gemma-2, LLaMA-3.1, and Qwen3 models. Our experiments demonstrate exceptional data efficiency: on the Math task, IGDS surpasses full-dataset fine-tuning by a remarkable 17.4% on Gemma-2-2B while using only 50% of the data, and outperforms established baselines focused on data quality and diversity. Analysis confirms a strong positive correlation between feature amplification and task performance improvement. IGDS thus provides a direct and effective framework to enhance LLMs by leveraging their internal mechanisms, validating our core hypothesis.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.