2603.16039v1 Mar 17, 2026 cs.LG

최신 트랜스포머 아키텍처에서의 잔차 스트림 이중성

Residual Stream Duality in Modern Transformer Architectures

Yifan Zhang
Yifan Zhang
Citations: 7
h-index: 1

최근 연구 결과에 따르면, 잔차 경로가 단순한 최적화 도구가 아니라 모델의 표현 메커니즘의 일부라는 것이 명확해졌습니다. 우리는 이에 동의하지만, 트랜스포머 설계 공간을 가장 명확하게 구성하는 방법은 두 축으로 보는 것입니다. 디코더는 시퀀스 위치와 레이어 깊이라는 두 가지 정렬된 차원을 따라 정보를 전달합니다. 자기 주의(self-attention)는 이미 시퀀스 축을 따라 적응적 혼합을 제공하는 반면, 잔차 스트림은 일반적으로 깊이 축을 따라 고정된 덧셈을 수행합니다. 특정 토큰 위치를 고정하고 레이어 인덱스를 정렬된 변수로 취급하면, 인과적 깊이 방향 잔차 주의(causal depth-wise residual attention)는 시퀀스가 아닌 깊이를 기준으로 작성된 인과적 짧은 슬라이딩 윈도우 주의(ShortSWA)와 정확히 동일한 로컬 연산자입니다. 이것이 Transformer$^2$의 핵심 잔차 스트림 이중성입니다. 이러한 관점은 최근 연구 문헌을 명확하게 해줍니다. ELC-BERT와 DenseFormer는 이미 레이어별 학습 집계가 균일한 잔차 누적보다 성능이 우수하다는 것을 보여주었으며, Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, 그리고 Attention Residuals는 초기 레이어에 대한 명시적인 주의 기반 라우팅을 더욱 발전시켰습니다. 그러나 중요한 점은 연산자 수준의 이중성이 시스템 수준의 대칭성을 의미하지 않는다는 것입니다. 대규모 자기 회귀 모델의 경우, 시퀀스 축을 사용하는 ShortSWA는 일반적으로 토큰 측 슬라이딩 윈도우 커널, KV 캐시 레이아웃, 그리고 청크 처리 등을 재사용할 수 있기 때문에 하드웨어 친화적인 방식입니다. 목표가 단순히 단축 경로 자체를 변경하는 것이라면, Deep Delta Learning (DDL)은 잔차 연산자를 직접 수정하는 방식이므로 더 깔끔한 방법입니다. 따라서 우리의 제안은 간단합니다. 단축 경로가 관심 대상인 경우 DDL을 사용하고, 로컬 적응적 혼합이 목표인 경우 시퀀스 축을 사용하는 ShortSWA를 사용하십시오.

Original Abstract

Recent work has made clear that the residual pathway is not mere optimization plumbing; it is part of the model's representational machinery. We agree, but argue that the cleanest way to organize this design space is through a two-axis view of the Transformer. A decoder evolves information along two ordered dimensions: sequence position and layer depth. Self-attention already provides adaptive mixing along the sequence axis, whereas the residual stream usually performs fixed addition along the depth axis. If we fix a token position and treat layer index as the ordered variable, then a causal depth-wise residual attention read is exactly the same local operator as causal short sliding-window attention (ShortSWA), except written over depth rather than over sequence. This is the core residual stream duality behind Transformer$^2$. This perspective also clarifies the recent literature. ELC-BERT and DenseFormer already show that learned aggregation over depth can outperform uniform residual accumulation, while Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, and Attention Residuals move further toward explicit attention-based routing over earlier layers. The key point, however, is that operator-level duality does not imply systems-level symmetry. For large-scale autoregressive models, sequence-axis ShortSWA is usually the more hardware-friendly placement because it reuses token-side sliding-window kernels, KV-cache layouts, and chunked execution. If the goal is instead to change the shortcut itself, Deep Delta Learning (DDL) is the cleaner intervention because it modifies the residual operator directly rather than adding a separate cross-layer retrieval path. Our recommendation is therefore simple: use DDL when the shortcut is the object of interest, and use sequence-axis ShortSWA when the goal is local adaptive mixing.

0 Citations
0 Influential
0.5 Altmetric
2.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!