2604.20915v1 Apr 22, 2026 cs.LG

흡수형 LLM: 인과적 동기화를 활용한 테스트 시간 학습

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Zhixin Zhang
Zhixin Zhang
Citations: 24
h-index: 3
Zeming Wei
Zeming Wei
Peking University
Citations: 1,009
h-index: 13
Chengcan Wu
Chengcan Wu
Citations: 24
h-index: 3
Meng Sun
Meng Sun
Citations: 67
h-index: 4
Shabo Zhang
Shabo Zhang
Citations: 0
h-index: 0

트랜스포머 모델은 자체 어텐션 메커니즘으로 인해 시퀀스 길이가 증가함에 따라 높은 계산 비용이 발생하며, 이는 긴 스트림에서의 추론을 메모리 소비로 인해 어렵게 만듭니다. RNN 및 SSM과 같은 고정 메모리 방식을 사용하는 대안들은 과거 정보를 고정 크기의 상태로 압축하여 장기 의존성을 잃게 됩니다. 또한, Test-Time Training (TTT)과 같이 문맥 정보를 파라미터에 저장하는 방법은 토큰 수준의 과적합을 유발하고, 사전 학습된 LLM에서 문맥의 인과적 효과를 유지하지 못하는 경향이 있습니다. 본 논문에서는 Absorber LLM을 제안합니다. Absorber LLM은 장기 문맥 정보를 유지하는 것을 자기 지도 학습 기반의 인과적 동기화 문제로 정의합니다. 즉, 과거 문맥 정보를 파라미터에 흡수시킨 후에는 문맥 정보가 없는 모델이 미래 예측에서 전체 문맥을 가진 원래 모델과 일치해야 합니다. 우리는 업데이트된 모델의 내부 동작을 원래 모델과 동기화하여 최적화함으로써, 문맥 정보의 흡수와 일반화 성능을 보장합니다. 장기 문맥 및 스트리밍 벤치마크 실험 결과, Absorber LLM은 기존의 파라미터를 활용한 방법 대비 추론 메모리를 줄이고 정확도를 향상시키는 것을 확인했습니다.

Original Abstract

Transformers suffer from a high computational cost that grows with sequence length for self-attention, making inference in long streams prohibited by memory consumption. Constant-memory alternatives such as RNNs and SSMs compress history into states with fixed size and thus lose long-tail dependencies, while methods that memorize contexts into parameters, such as Test-Time Training (TTT), are prone to overfitting token-level projection and fail to preserve the causal effect of context in pretrained LLMs. We propose Absorber LLM, which formulates long-context retention as a self-supervised causal synchronization: after absorbing historical contexts into parameters, a contextless model should match the original model with full context on future generations. We optimize this objective by synchronizing internal behaviors of the updated model with the original one, ensuring context absorption and generalization. Experiments on long-context and streaming benchmarks show that Absorber LLM reduces inference memory and improves accuracy over prior parameter-as-memory baselines.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!