원자에서 나무까지: 계층적 희소 오토인코더를 활용한 구조화된 특성 숲 구축
From Atoms to Trees: Building a Structured Feature Forest with Hierarchical Sparse Autoencoders
희소 오토인코더(SAE)는 거대 언어 모델(LLM)에서 단일 의미(monosemantic) 특성을 추출하는 데 효과적인 것으로 입증되었으나, 이러한 특성들은 대개 고립된 상태로 식별됩니다. 그러나 광범위한 증거들은 LLM이 자연어의 내재적 구조를 포착하고 있음을 시사하며, 특히 "특성 분할(feature splitting)" 현상은 그러한 구조가 계층적임을 나타냅니다. 이를 포착하기 위해, 우리는 일련의 SAE와 그 특성들 간의 부모-자식 관계를 공동으로 학습하는 계층적 희소 오토인코더(HSAE)를 제안합니다. HSAE는 구조적 제약 손실(structural constraint loss)과 무작위 특성 섭동(perturbation) 메커니즘이라는 두 가지 새로운 기법을 통해 부모와 자식 특성 간의 정렬을 강화합니다. 다양한 LLM과 레이어에 걸친 광범위한 실험을 통해, 정성적 사례 연구와 엄격한 정량적 지표 모두에서 뒷받침되듯이 HSAE가 의미적으로 유의미한 계층 구조를 일관되게 복원함을 입증합니다. 동시에 HSAE는 다양한 딕셔너리 크기에 걸쳐 표준 SAE의 재구성 충실도와 해석 가능성을 유지합니다. 본 연구는 LLM 표현에 내재된 다중 스케일 개념 구조를 발견하고 분석하기 위한 강력하고 확장 가능한 도구를 제공합니다.
Sparse autoencoders (SAEs) have proven effective for extracting monosemantic features from large language models (LLMs), yet these features are typically identified in isolation. However, broad evidence suggests that LLMs capture the intrinsic structure of natural language, where the phenomenon of "feature splitting" in particular indicates that such structure is hierarchical. To capture this, we propose the Hierarchical Sparse Autoencoder (HSAE), which jointly learns a series of SAEs and the parent-child relationships between their features. HSAE strengthens the alignment between parent and child features through two novel mechanisms: a structural constraint loss and a random feature perturbation mechanism. Extensive experiments across various LLMs and layers demonstrate that HSAE consistently recovers semantically meaningful hierarchies, supported by both qualitative case studies and rigorous quantitative metrics. At the same time, HSAE preserves the reconstruction fidelity and interpretability of standard SAEs across different dictionary sizes. Our work provides a powerful, scalable tool for discovering and analyzing the multi-scale conceptual structures embedded in LLM representations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.