2603.20896v1 Mar 21, 2026 cs.LG

비르코프 다면체 너머: 스펙트럴-구면 제약 하이퍼-연결

Beyond the Birkhoff Polytope: Spectral-Sphere-Constrained Hyper-Connections

Ang Li
Ang Li
Citations: 140
h-index: 6
Zhaoyi Liu
Zhaoyi Liu
Citations: 10
h-index: 1
Haichuan Zhang
Haichuan Zhang
Citations: 11
h-index: 2

하이퍼-연결(HC)은 잔여 연결을 여러 스트림으로 일반화하며, 스트림 간 특징 혼합을 위해 잔여 행렬을 사용하여 모델의 표현력을 향상시킵니다. 그러나 제약 없는 혼합은 잔여 연결에 내재된 항등 매핑 속성을 파괴하여 불안정한 학습을 초래합니다. 이를 해결하기 위해, 매니폴드-제약 하이퍼-연결(mHC)과 그 변형은 싱크호른 반복 또는 순열 기반 파라미터화를 통해 이러한 행렬을 비르코프 다면체(이중 확률 행렬)로 제한합니다. 우리는 이 다면체 제약의 세 가지 한계를 밝혀냅니다. (1) 항등성 저하: 학습된 행렬이 항등 행렬 주변으로 붕괴되어 스트림 간 상호 작용이 감소합니다. (2) 표현력 병목 현상: 음수 제약 조건으로 인해 뺄셈 특징 분리가 방해받습니다. (3) 파라미터화 비효율성: 불안정한 싱크호른 반복 또는 순열 기반 파라미터화의 팩토리얼 스케일링 오버헤드가 발생합니다. 이러한 결점을 극복하기 위해, 스펙트럴-구면 제약 하이퍼-연결(sHC)을 제안합니다. sHC는 기하학적으로 허용 가능한 집합을 경직된 다면체에서 스펙트럴 노름 구로 이동시켜 음수 값을 허용함으로써 선택적인 특징 다양화를 위한 뺄셈 상호 작용을 가능하게 합니다. 이러한 이동은 불안정한 싱크호른 투영 및 팩토리얼 파라미터화를 제거하고, 표현력이 풍부하고 저하되지 않는 잔여 행렬을 유지하면서 학습 안정성을 보장합니다.

Original Abstract

Hyper-Connections (HC) generalize residual connections into multiple streams, employing residual matrices for cross-stream feature mixing to enrich model expressivity. However, unconstrained mixing disrupts the identity mapping property intrinsic to the residual connection, causing unstable training. To address this, Manifold-Constrained Hyper-Connections (mHC) and its variant restrict these matrices to the Birkhoff polytope (doubly stochastic matrices) via Sinkhorn iterations or permutation-based parameterizations. We reveal three limitations of this polytope constraint: (1) identity degeneration, where learned matrices collapse around the identity and diminish cross-stream interactions, (2) an expressivity bottleneck, as the non-negativity constraint prevents subtractive feature disentanglement, and (3) parameterization inefficiencies, manifesting as unstable Sinkhorn iterations or the factorial-scaling overhead of permutation-based parameterizations. To overcome these flaws, we propose Spectral-Sphere-Constrained Hyper-Connections (sHC). By geometrically shifting the feasible set from a rigid polytope to a spectral norm sphere, sHC allows negative entries, unlocking subtractive interactions for selective feature diversification. This shift eliminates unstable Sinkhorn projections and factorial parameterization, enabling expressive, non-degenerate residual matrices while preserving training stability.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!