TokenSeek: 인스턴스 기반 토큰 제거를 통한 메모리 효율적인 파인튜닝
TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching
파인튜닝은 대규모 언어 모델(LLM)을 다양한 하위 작업에 적용하는 사실상 표준적인 방법으로 여겨져 왔지만, LLM에서 파생된 높은 학습 메모리 사용량은 이 과정을 비효율적으로 만듭니다. 기존의 메모리 효율적인 방법들 중, 활성화(activation) 관련 최적화는 전체 메모리 사용량에서 활성화를 최적으로 관리하기 때문에 특히 효과적인 것으로 입증되었습니다. 기존 연구에서는 다양한 활성화 최적화 전략을 제시했지만, 이러한 전략들은 데이터에 독립적이기 때문에 궁극적으로 비효율적이고 불안정한 파인튜닝 결과를 초래합니다. 본 논문에서는 인스턴스 기반 토큰 검색 및 제거를 통해 다양한 트랜스포머 기반 모델에 적용 가능한 범용 플러그인 솔루션인 TokenSeek을 제안합니다. TokenSeek은 상당한 파인튜닝 메모리 절감 효과를 제공하며 (예: Llama3.2 1B 모델에서 14.8%의 메모리만 사용), 성능은 동등하거나 더 나은 수준을 달성합니다. 또한, 해석 가능한 토큰 검색 프로세스를 통해 TokenSeek의 효과성에 대한 근본적인 이유를 밝히고, 향후 토큰 효율성 연구에 귀중한 통찰력을 제공합니다. 홈페이지: https://runjia.tech/iclr_tokenseek/
Fine tuning has been regarded as a de facto approach for adapting large language models (LLMs) to downstream tasks, but the high training memory consumption inherited from LLMs makes this process inefficient. Among existing memory efficient approaches, activation-related optimization has proven particularly effective, as activations consistently dominate overall memory consumption. Although prior arts offer various activation optimization strategies, their data-agnostic nature ultimately results in ineffective and unstable fine tuning. In this paper, we propose TokenSeek, a universal plugin solution for various transformer-based models through instance-aware token seeking and ditching, achieving significant fine-tuning memory savings (e.g., requiring only 14.8% of the memory on Llama3.2 1B) with on-par or even better performance. Furthermore, our interpretable token seeking process reveals the underlying reasons for its effectiveness, offering valuable insights for future research on token efficiency. Homepage: https://runjia.tech/iclr_tokenseek/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.