2603.07461v1 Mar 08, 2026 cs.CL

듀얼 스트림 트랜스포머: 해석 가능한 언어 모델링을 위한 채널화된 아키텍처

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

C. Kerce
C. Kerce
Citations: 128
h-index: 2
A. Fox
A. Fox
Citations: 6
h-index: 2

기존 트랜스포머는 모든 연산을 하나의 잔차 스트림에 통합하여, 어떤 구성 요소가 어떤 기능을 수행하는지 파악하기 어렵게 만듭니다. 본 논문에서는 듀얼 스트림 트랜스포머를 제안합니다. 듀얼 스트림 트랜스포머는 잔차 스트림을 어텐션에 의해 업데이트되는 토큰 스트림과, 피드포워드 네트워크에 의해 업데이트되는 컨텍스트 스트림, 이렇게 두 가지 기능적으로 구별되는 구성 요소로 분리합니다. 어텐션 헤드 간의 정보 흐름은 완전히 독립적인 방식(최대 해석 가능성)부터 밀집된 방식(기존 트랜스포머의 동작)까지 다양한 혼합 전략을 통해 제어됩니다. 이러한 설계는 해석 가능성과 성능 간의 조정 가능한 균형을 제공합니다. 본 연구에서는 2900만 파라미터 규모의 언어 모델링 작업에서 이러한 균형을 측정했습니다. 어텐션 헤드를 완전히 독립적으로 혼합하면 검증 손실이 기준 모델 대비 8% 증가합니다. 권장하는 크로네커 혼합 전략은 헤드 간의 스칼라 통신을 허용하면서 헤드 내부의 구조를 유지하며, 성능 저하가 2.5%에 불과합니다. 모든 구성은 추론 시 로짓 값을 최대 16배까지 스케일링하는 어텐션 증폭 조건에서도 기능적인 성능을 유지하며, 성능 저하 범위는 16%에서 27%입니다. 이러한 안정성은 아키텍처가 소프트 확률적 혼합과 독립적으로 작동하는 이산 알고리즘을 학습한다는 것을 시사합니다. 제안된 아키텍처는 내부 구조가 설계에 의해 노출되는 해석 가능한 언어 모델의 기반을 제공합니다. Journey. This research was supported by the National Science Foundation under grant no. ABCDE-123456. More information can be found at [invalid URL removed].

Original Abstract

Standard transformers entangle all computation in a single residual stream, obscuring which components perform which functions. We introduce the Dual-Stream Transformer, which decomposes the residual stream into two functionally distinct components: a token stream updated by attention and a context stream updated by feed-forward networks. Information flow between attention heads is controlled through a hierarchy of mixing strategies, from fully independent (maximum interpretability) to dense (standard transformer behavior). This design exposes a tunable tradeoff between interpretability and performance. We measure this tradeoff on language modeling tasks at 29M parameters. Fully independent head mixing increases validation loss by 8\% relative to dense baselines. The recommended Kronecker mixing strategy, which permits scalar communication between heads while preserving within-head structure, costs only 2.5\%. All configurations maintain functional generation under attention amplification (scaling logits by factors up to 16 at inference time), with degradation ranging from 16\% to 27\%. This robustness suggests the architectures learn discrete algorithms that operate independently of soft probabilistic mixing. The architecture provides a foundation for interpretable language models where internal structure is exposed by design. \footnote{This work was partially supported by DARPA Contract HR001125C0302.}

2 Citations
1 Influential
1 Altmetric
9.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!