2603.04759v1 Mar 05, 2026 cs.CL

하나에서 쌓아 올리기: 컨텍스트 윈도우 확장을 위한 멀티 스케일 자가 주입

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Shuicheng Yan
Shuicheng Yan
Citations: 656
h-index: 7
Soujanya Poria
Soujanya Poria
Citations: 36,193
h-index: 80
Wei Han
Wei Han
Citations: 170
h-index: 2
Pan Zhou
Pan Zhou
Citations: 17
h-index: 2

최신 대규모 언어 모델(LLM)의 제한적인 컨텍스트 윈도우는 다양한 분야로의 활용을 가로막는 주요 병목 현상입니다. 긴 컨텍스트 데이터를 활용한 지속적인 사전 학습은 간단한 해결책이지만, 엄청난 데이터 획득 및 계산 비용을 초래합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 멀티 그레인 컨텍스트 압축과 쿼리 기반 정보 획득을 기반으로 하는 새로운 프레임워크인~ extit{SharedLLM}을 제안합니다. SharedLLM은 두 개의 스태킹된 짧은 컨텍스트 LLM으로 구성됩니다. 하위 모델은 압축기로 작동하고, 상위 모델은 디코더로 작동합니다. 하위 모델은 긴 입력을 압축하여 컴팩트한 멀티 그레인 표현으로 변환하고, 이 표현은 상위 모델에서 컨텍스트 인지 처리를 위해 전달됩니다. 효율성을 극대화하기 위해, 정보 전달은 최하위 레이어에서만 이루어지며, 긴 순방향 연산과 중복된 크로스 어텐션 연산을 피합니다. 상위 및 하위 모델이 동일한 기본 LLM 레이어를 기반으로 파생되는 이 전체 프로세스를~ extit{자가 주입(self-injection)}이라고 합니다. 이 아키텍처를 지원하기 위해, 특수한 트리 기반 데이터 구조를 사용하여 컨텍스트 정보의 효율적인 인코딩 및 쿼리 기반 검색을 가능하게 합니다. extit{SharedLLM}은 8K 토큰의 시퀀스로 학습되었지만, 128K 토큰을 초과하는 입력에 대해서도 효과적으로 일반화됩니다. 광범위한 긴 컨텍스트 모델링 및 이해 벤치마크에서, extit{SharedLLM}은 강력한 기준 모델과 동등하거나 더 나은 성능을 달성하며, 효율성과 정확성 간의 최적의 균형을 유지합니다. 또한, 이러한 설계 선택은 extit{SharedLLM}의 메모리 사용량을 크게 줄이고, 상당한 추론 속도 향상($2 imes$ 스트리밍 방식 대비, $3 imes$ 인코더-디코더 아키텍처 대비)을 제공합니다.

Original Abstract

The limited context window of contemporary large language models (LLMs) remains a primary bottleneck for their broader application across diverse domains. Although continual pre-training on long-context data offers a straightforward solution, it incurs prohibitive data acquisition and computational costs. To address this challenge, we propose~\modelname, a novel framework based on multi-grained context compression and query-aware information acquisition. SharedLLM comprises two stacked short-context LLMs: a lower model serving as a compressor and an upper model acting as a decoder. The lower model compresses long inputs into compact, multi-grained representations, which are then forwarded to the upper model for context-aware processing. To maximize efficiency, this information transfer occurs exclusively at the lowest layers, bypassing lengthy forward passes and redundant cross-attention operations. This entire process, wherein the upper and lower models are derived from the same underlying LLM layers, is termed~\textit{self-injection}. To support this architecture, a specialized tree-based data structure enables the efficient encoding and query-aware retrieval of contextual information. Despite being trained on sequences of only 8K tokens, \modelname~effectively generalizes to inputs exceeding 128K tokens. Across a comprehensive suite of long-context modeling and understanding benchmarks, \modelname~achieves performance superior or comparable to strong baselines, striking an optimal balance between efficiency and accuracy. Furthermore, these design choices allow \modelname~to substantially reduce the memory footprint and yield notable inference speedups ($2\times$ over streaming and $3\times$ over encoder-decoder architectures).

0 Citations
0 Influential
30 Altmetric
150.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!