스펙트럴 슈퍼포지션: 특징 기하학 이론
Spectral Superposition: A Theory of Feature Geometry
신경망은 슈퍼포지션을 통해 자체 차원보다 더 많은 특징을 표현하며, 이는 특징들이 표현 공간을 공유하도록 강제합니다. 현재의 방법들은 활성화 값을 희소한 선형 특징으로 분해하지만, 기하학적 구조는 무시합니다. 본 연구에서는 가중치 기반 행렬의 스펙트럼(고유값, 고유 공간 등)을 분석하여 특징의 기하학적 구조를 연구하는 이론을 제시합니다. 특히, 프레임 연산자 $F = WW^ op$를 도입하여, 각 특징이 고유 공간에 걸쳐 정규화를 어떻게 할당하는지를 설명하는 스펙트럴 측도를 제공합니다. 기존의 방법들은 특징 간의 쌍별 상호 작용을 설명할 수 있었지만, 스펙트럴 방법은 전체적인 기하 구조(모든 특징이 어떻게 상호 작용하는가?)를 파악합니다. 슈퍼포지션의 단순 모델에서, 본 이론을 사용하여 용량 포화가 스펙트럴 로컬라이제이션을 유도한다는 것을 증명합니다. 즉, 특징들이 단일 고유 공간에 집중되고, 조밀한 프레임을 형성하며, 연관 스킴을 통해 이산적인 분류를 가능하게 합니다. 이러한 결과는 기존 연구에서 다룬 모든 기하 구조(예: 단순체, 다각형, 반정다면체)를 설명합니다. 스펙트럴 측도 형식은 임의의 가중치 행렬에 적용될 수 있으며, 단순 모델을 넘어 특징의 로컬라이제이션을 진단하는 데 사용될 수 있습니다. 이러한 결과는 해석 가능성을 향한 보다 광범위한 연구 프로그램을 제시하며, 연산자 이론을 활용하여 신경망의 작동 방식을 이해하는 데 기여할 수 있습니다.
Neural networks represent more features than they have dimensions via superposition, forcing features to share representational space. Current methods decompose activations into sparse linear features but discard geometric structure. We develop a theory for studying the geometric structre of features by analyzing the spectra (eigenvalues, eigenspaces, etc.) of weight derived matrices. In particular, we introduce the frame operator $F = WW^\top$, which gives us a spectral measure that describes how each feature allocates norm across eigenspaces. While previous tools could describe the pairwise interactions between features, spectral methods capture the global geometry (``how do all features interact?''). In toy models of superposition, we use this theory to prove that capacity saturation forces spectral localization: features collapse onto single eigenspaces, organize into tight frames, and admit discrete classification via association schemes, classifying all geometries from prior work (simplices, polygons, antiprisms). The spectral measure formalism applies to arbitrary weight matrices, enabling diagnosis of feature localization beyond toy settings. These results point toward a broader program: applying operator theory to interpretability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.