2604.15153v1 Apr 16, 2026 cs.CL

잠재 임베딩 공간에서의 시퀀스 압축: 대규모 언어 모델을 위한 K-토큰 병합

Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models

Hao Wang
Hao Wang
Citations: 3
h-index: 1
John Harvill
John Harvill
University of Illinois at Urbana-Champaign
Citations: 136
h-index: 7
Zihao Xu
Zihao Xu
Citations: 232
h-index: 3
Ziwei Fan
Ziwei Fan
Citations: 34
h-index: 2
Yizhou Sun
Yizhou Sun
Citations: 90
h-index: 3
Hao Ding
Hao Ding
Citations: 22
h-index: 1

대규모 언어 모델(LLM)은 긴 프롬프트를 처리할 때 상당한 계산 및 메모리 비용을 발생시키는데, 이는 전체 셀프 어텐션이 입력 길이에 대해 제곱으로 증가하기 때문입니다. 토큰 압축은 입력에 대한 토큰 수를 줄여 이 문제를 해결하고자 합니다. 그러나 기존의 프롬프트 압축 방법은 주로 토큰 공간에서 작동하며 잠재 임베딩 공간의 비효율성을 간과합니다. 본 논문에서는 가벼운 인코더를 사용하여 K개의 연속된 토큰 임베딩 블록을 하나의 임베딩으로 병합하는 잠재 공간 압축 프레임워크인 K-토큰 병합을 제안합니다. 압축된 시퀀스는 LoRA로 조정된 LLM에 의해 처리되며, 생성은 원래 어휘를 사용합니다. 구조적 추론(Textualized Tree), 감성 분류(Amazon Reviews), 코드 편집(CommitPackFT)에 대한 실험 결과, K-토큰 병합은 성능과 압축률 간의 파레토 최적점에 위치하며, 최대 75%의 입력 길이 감소를 달성하면서도 성능 저하를 최소화합니다.

Original Abstract

Large Language Models (LLMs) incur significant computational and memory costs when processing long prompts, as full self-attention scales quadratically with input length. Token compression aims to address this challenge by reducing the number of tokens representing inputs. However, existing prompt-compression approaches primarily operate in token space and overlook inefficiencies in the latent embedding space. In this paper, we propose K-Token Merging, a latent-space compression framework that merges each contiguous block of K token embeddings into a single embedding via a lightweight encoder. The compressed sequence is processed by a LoRA-adapted LLM, while generation remains in the original vocabulary. Experiments on structural reasoning (Textualized Tree), sentiment classification (Amazon Reviews), and code editing (CommitPackFT) show that K-Token Merging lies on the Pareto frontier of performance vs. compression, achieving up to 75% input length reduction with minimal performance degradation.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!