2602.13524v1 Feb 13, 2026 cs.LG

어텐션 헤드의 특이 벡터가 특징과 일치한다

Singular Vectors of Attention Heads Align with Features

Gabriel Franco
Gabriel Franco
Citations: 5
h-index: 2
Mark Crovella
Mark Crovella
Citations: 18
h-index: 2
Carson Loughridge
Carson Loughridge
Citations: 0
h-index: 0

언어 모델에서 특징 표현을 파악하는 것은 기계적 해석의 핵심 과제입니다. 최근 연구들은 특이 벡터가 특정 경우에 특징 표현을 추론하는 데 사용될 수 있다는 암묵적인 가정을 하고 있습니다. 하지만 이러한 가정에 대한 충분한 근거가 부족합니다. 본 논문에서는 다음과 같은 질문에 답하고자 합니다. 왜 그리고 언제 특이 벡터가 특징과 일치할까요? 먼저, 특징을 직접 관찰할 수 있는 모델에서 특이 벡터가 특징과 안정적으로 일치한다는 것을 보여줍니다. 그런 다음, 다양한 조건에서 이러한 일치가 예상된다는 것을 이론적으로 설명합니다. 마지막으로, 특징 표현을 직접 관찰할 수 없는 실제 모델에서 일치를 어떻게 인식할 수 있는지에 대해 논의합니다. 우리는 희소 어텐션 분해를 일치 여부를 판단하는 데 사용할 수 있는 예측 가능한 현상으로 제시하고, 실제 모델에서 이러한 현상이 예측과 일관되게 나타나는 증거를 제시합니다. 종합적으로 이러한 결과는 특이 벡터와 특징의 일치가 언어 모델에서 특징을 식별하는 데 유효하고 이론적으로 정당화될 수 있는 기반이 될 수 있음을 시사합니다.

Original Abstract

Identifying feature representations in language models is a central task in mechanistic interpretability. Several recent studies have made an implicit assumption that feature representations can be inferred in some cases from singular vectors of attention matrices. However, sound justification for this assumption is lacking. In this paper we address that question, asking: why and when do singular vectors align with features? First, we demonstrate that singular vectors robustly align with features in a model where features can be directly observed. We then show theoretically that such alignment is expected under a range of conditions. We close by asking how, operationally, alignment may be recognized in real models where feature representations are not directly observable. We identify sparse attention decomposition as a testable prediction of alignment, and show evidence that it emerges in a manner consistent with predictions in real models. Together these results suggest that alignment of singular vectors with features can be a sound and theoretically justified basis for feature identification in language models.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!