잠재 임베딩 공간에서의 시퀀스 압축: 대규모 언어 모델을 위한 K-토큰 병합
Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models
대규모 언어 모델(LLM)은 긴 프롬프트를 처리할 때 상당한 계산 및 메모리 비용을 발생시키는데, 이는 전체 셀프 어텐션이 입력 길이에 대해 제곱으로 증가하기 때문입니다. 토큰 압축은 입력에 대한 토큰 수를 줄여 이 문제를 해결하고자 합니다. 그러나 기존의 프롬프트 압축 방법은 주로 토큰 공간에서 작동하며 잠재 임베딩 공간의 비효율성을 간과합니다. 본 논문에서는 가벼운 인코더를 사용하여 K개의 연속된 토큰 임베딩 블록을 하나의 임베딩으로 병합하는 잠재 공간 압축 프레임워크인 K-토큰 병합을 제안합니다. 압축된 시퀀스는 LoRA로 조정된 LLM에 의해 처리되며, 생성은 원래 어휘를 사용합니다. 구조적 추론(Textualized Tree), 감성 분류(Amazon Reviews), 코드 편집(CommitPackFT)에 대한 실험 결과, K-토큰 병합은 성능과 압축률 간의 파레토 최적점에 위치하며, 최대 75%의 입력 길이 감소를 달성하면서도 성능 저하를 최소화합니다.
Large Language Models (LLMs) incur significant computational and memory costs when processing long prompts, as full self-attention scales quadratically with input length. Token compression aims to address this challenge by reducing the number of tokens representing inputs. However, existing prompt-compression approaches primarily operate in token space and overlook inefficiencies in the latent embedding space. In this paper, we propose K-Token Merging, a latent-space compression framework that merges each contiguous block of K token embeddings into a single embedding via a lightweight encoder. The compressed sequence is processed by a LoRA-adapted LLM, while generation remains in the original vocabulary. Experiments on structural reasoning (Textualized Tree), sentiment classification (Amazon Reviews), and code editing (CommitPackFT) show that K-Token Merging lies on the Pareto frontier of performance vs. compression, achieving up to 75% input length reduction with minimal performance degradation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.