비르코프 다면체 너머: 스펙트럴-구면 제약 하이퍼-연결
Beyond the Birkhoff Polytope: Spectral-Sphere-Constrained Hyper-Connections
하이퍼-연결(HC)은 잔여 연결을 여러 스트림으로 일반화하며, 스트림 간 특징 혼합을 위해 잔여 행렬을 사용하여 모델의 표현력을 향상시킵니다. 그러나 제약 없는 혼합은 잔여 연결에 내재된 항등 매핑 속성을 파괴하여 불안정한 학습을 초래합니다. 이를 해결하기 위해, 매니폴드-제약 하이퍼-연결(mHC)과 그 변형은 싱크호른 반복 또는 순열 기반 파라미터화를 통해 이러한 행렬을 비르코프 다면체(이중 확률 행렬)로 제한합니다. 우리는 이 다면체 제약의 세 가지 한계를 밝혀냅니다. (1) 항등성 저하: 학습된 행렬이 항등 행렬 주변으로 붕괴되어 스트림 간 상호 작용이 감소합니다. (2) 표현력 병목 현상: 음수 제약 조건으로 인해 뺄셈 특징 분리가 방해받습니다. (3) 파라미터화 비효율성: 불안정한 싱크호른 반복 또는 순열 기반 파라미터화의 팩토리얼 스케일링 오버헤드가 발생합니다. 이러한 결점을 극복하기 위해, 스펙트럴-구면 제약 하이퍼-연결(sHC)을 제안합니다. sHC는 기하학적으로 허용 가능한 집합을 경직된 다면체에서 스펙트럴 노름 구로 이동시켜 음수 값을 허용함으로써 선택적인 특징 다양화를 위한 뺄셈 상호 작용을 가능하게 합니다. 이러한 이동은 불안정한 싱크호른 투영 및 팩토리얼 파라미터화를 제거하고, 표현력이 풍부하고 저하되지 않는 잔여 행렬을 유지하면서 학습 안정성을 보장합니다.
Hyper-Connections (HC) generalize residual connections into multiple streams, employing residual matrices for cross-stream feature mixing to enrich model expressivity. However, unconstrained mixing disrupts the identity mapping property intrinsic to the residual connection, causing unstable training. To address this, Manifold-Constrained Hyper-Connections (mHC) and its variant restrict these matrices to the Birkhoff polytope (doubly stochastic matrices) via Sinkhorn iterations or permutation-based parameterizations. We reveal three limitations of this polytope constraint: (1) identity degeneration, where learned matrices collapse around the identity and diminish cross-stream interactions, (2) an expressivity bottleneck, as the non-negativity constraint prevents subtractive feature disentanglement, and (3) parameterization inefficiencies, manifesting as unstable Sinkhorn iterations or the factorial-scaling overhead of permutation-based parameterizations. To overcome these flaws, we propose Spectral-Sphere-Constrained Hyper-Connections (sHC). By geometrically shifting the feasible set from a rigid polytope to a spectral norm sphere, sHC allows negative entries, unlocking subtractive interactions for selective feature diversification. This shift eliminates unstable Sinkhorn projections and factorial parameterization, enabling expressive, non-degenerate residual matrices while preserving training stability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.