희소 오토인코더는 개념 다양체를 포착하는가?
Do Sparse Autoencoders Capture Concept Manifolds?
희소 오토인코더(SAE)는 신경망 표현에서 해석 가능한 특징을 추출하는 데 널리 사용되며, 종종 개념이 독립적인 선형 방향과 일치한다는 암묵적인 가정을 기반으로 합니다. 그러나 증가하는 연구 결과는 많은 개념이 연속적인 기하학적 관계를 인코딩하는 저차원 다양체에 따라 구성된다는 것을 시사합니다. 이는 세 가지 기본적인 질문을 제기합니다. SAE가 다양체를 포착한다는 것은 무엇을 의미하며, 기존 SAE 아키텍처가 언제 그러한 포착을 수행하며, 어떻게 수행하는가? 우리는 이러한 질문에 답하는 이론적 프레임워크를 개발하고, SAE가 다양체를 두 가지 근본적으로 다른 방식으로 포착할 수 있음을 보여줍니다. 즉, 전체 다양체를 포함하는 선형 공간을 형성하는 응집된 원자 그룹을 할당하여 전역적으로 포착하거나, 각 특징이 기본 기하학의 제한된 영역을 선택적으로 채우도록 분산시켜 국부적으로 포착하는 방식입니다. 경험적으로, SAE는 연속적인 구조를 최적이 아닌 방식으로 복원하며, 전역 부분 공간과 국부 타일링 솔루션을 조각난 방식으로 혼합합니다. 이를 '희석화(dilution)'라고 부릅니다. 이는 왜 다양체 구조가 개별 개념 수준에서 거의 보이지 않는지를 설명하며, 고립된 방향이 아닌 일관된 원자 그룹을 찾는 사후 비지도 학습 방법의 필요성을 강조합니다. 더 넓은 의미에서, 우리의 결과는 향후 표현 학습 방법이 해석 가능성의 기본 단위로 개별 방향뿐만 아니라 기하학적 객체를 취급해야 함을 시사합니다.
Sparse autoencoders (SAEs) are widely used to extract interpretable features from neural network representations, often under the implicit assumption that concepts correspond to independent linear directions. However, a growing body of evidence suggests that many concepts are instead organized along low-dimensional manifolds encoding continuous geometric relationships. This raises three basic questions: what does it mean for an SAE to capture a manifold, when do existing SAE architectures do so, and how? We develop a theoretical framework that answers these questions and show that SAEs can capture manifolds in two fundamentally different ways: globally, by allocating a compact group of atoms whose linear span contains the entire manifold, or locally, by distributing it across features that each selectively tile a restricted region of the underlying geometry. Empirically, we find that SAEs suboptimally recover continuous structures, mixing the global subspace and local tiling solutions in a fragmented regime we call dilution. This explains why manifold structure is rarely visible at the level of individual concepts and motivates post-hoc unsupervised discovery methods that search for coherent groups of atoms rather than isolated directions. More broadly, our results suggest that future representation learning methods should treat geometric objects, not just individual directions, as the basic units of interpretability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.