2605.14217v1 May 14, 2026 cs.LG

PreFT: 효율적인 추론을 위한 프리필 전용 파인튜닝

PreFT: Prefill-only finetuning for efficient inference

Andrew Lanpouthakoun
Andrew Lanpouthakoun
Citations: 182
h-index: 1
Aryaman Arora
Aryaman Arora
Stanford University
Citations: 1,180
h-index: 15
Zhengxuan Wu
Zhengxuan Wu
Citations: 174
h-index: 4
Dhruv Pai
Dhruv Pai
Citations: 212
h-index: 5
Benjamin Keigwin
Benjamin Keigwin
Citations: 178
h-index: 1
Daniel Jurafsky
Daniel Jurafsky
Citations: 497
h-index: 8
Christopher Potts
Christopher Potts
Citations: 1,082
h-index: 12

최근 대규모 언어 모델은 파라미터 효율적인 파인튜닝(PEFT) 방법을 통해 효율적으로 개인화될 수 있습니다. 그러나 사용자별 PEFT 모델을 서비스하는 것은 특수 커널 및 메모리 관리 기술을 사용하더라도 처리량을 저하시킵니다. 이는 이론적 및 경험적으로, 프리필(한 번에 많은 토큰을 처리하는 방식)과 디코딩(단일 토큰을 자기 회귀적으로 생성하는 방식) 간에 불일치가 존재하기 때문입니다. 특히, 여러 어댑터를 사용할 때 디코딩 방식은 처리량이 훨씬 낮습니다. 따라서, 파라미터 수를 기준으로 성능을 최적화하는 대신, 효율적인 다중 어댑터 서비스를 위해서는 처리량 기준으로 성능을 최적화해야 합니다. 이에 우리는 프리필 전용 파인튜닝(PreFT)을 제안합니다. PreFT는 어댑터를 프리필 토큰에만 적용하고, 이후에는 어댑터를 제거하는 방식입니다. PreFT는 성능에 미치는 영향은 최소화하면서 처리량을 크게 향상시킵니다. 우리는 vLLM 추론 엔진에서 두 가지 프리필 전용 PEFT 방법인 LoRA와 ReFT의 효율적인 구현체를 개발하고 공개합니다. 먼저, 다중 사용자 PreFT 모델을 서비스하는 것이 기존 PEFT 모델보다 효율적임을 보였습니다(Llama 3.1 70B에서 512개의 어댑터를 서비스할 때 처리량이 1.9배 높습니다). 그런 다음, 다양한 크기의 언어 모델을 사용하여 감독 학습 및 강화 학습 작업에서 프리필 전용 어댑터와 전체 토큰 어댑터의 성능을 비교했습니다. 지도 학습(SFT)에서 PreFT의 평가 손실은 기존 PEFT보다 높지만, 처리량 감소 없이 랭크를 늘려 이를 보상할 수 있습니다. 강화 학습(RL)에서는 PreFT가 표준 PEFT와 거의 동등한 성능을 보이는 것을 확인했습니다. 종합적으로, 본 연구는 LLM의 프리필 전용 어댑테이션이 개인화된 서비스에 대한 기존 PEFT보다 더 유리한 정확도-처리량 균형을 제공한다는 것을 입증합니다.

Original Abstract

Large language models can now be personalised efficiently at scale using parameter efficient finetuning methods (PEFTs), but serving user-specific PEFTs harms throughput, even with specialised kernels and memory management techniques. This is because, theoretically and empirically, a mismatch exists between prefill (processing a large number of tokens at once) and decode (generating a single token autoregressively): the latter has far lower throughput when serving multiple adapters. Rather than optimising performance relative to parameter count, for efficient multi-adapter serving, we instead ought to optimise performance relative to serving throughput. We therefore propose PreFT (Prefill-only Finetuning), wherein we only apply the adapter to prefill tokens and discard it afterwards. PreFT significantly increases throughput with minimal effect on performance. We develop and release an efficient implementation of two prefill-only PEFTs, LoRA and ReFT, on the vLLM inference engine. We first show that serving multi-user PreFTs is more efficient than traditional PEFTs ($1.9\times$ the throughput when serving $512$ adapters on Llama 3.1 70B). Then, we compare the performance of prefill-only vs. all-token adapters on a variety of supervised finetuning and reinforcement learning tasks with LMs at varying scales. On SFT, we observe that the evaluation loss of PreFTs is higher than PEFTs, but can be compensated by increasing rank with nearly no reduction in throughput. On RL, we consistently find that PreFTs approach parity with standard PEFTs. Together, this work validates prefill-only adaptation of LLMs as a more favourable accuracy-throughput tradeoff than existing PEFTs for personalised serving.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!