언어 모델에서 프롬프트별 고도의 해석 가능성을 갖는 회로를 찾는 연구
Finding Highly Interpretable Prompt-Specific Circuits in Language Models
언어 모델이 과제를 해결하는 데 사용하는 내부 회로를 이해하는 것은 기계적 해석 가능성 분야의 핵심적인 과제입니다. 기존 연구 대부분은 여러 프롬프트에 대한 평균값을 사용하여 과제 수준에서 회로를 식별하며, 이는 각 과제에 대해 단일하고 안정적인 메커니즘이 존재한다는 전제를 암시합니다. 본 연구에서는 이러한 전제가 중요한 구조적 요소를 가릴 수 있음을 보여줍니다. 즉, 회로는 프롬프트별로 다르다는 것입니다. 어텐션 인과적 통신(ACC) (Franco & Crovella, 2025)을 기반으로, ACC++라는 개선된 방법을 제안합니다. ACC++는 단일 순방향 통과 과정에서 어텐션 헤드 내부의 더 깨끗하고 낮은 차원의 인과적 신호를 추출합니다. ACC와 마찬가지로, ACC++는 대체 모델(예: SAE)이나 활성화 패치 기술이 필요하지 않습니다. 또한, ACC++는 속성 부여 오류를 줄여 회로의 정확성을 더욱 향상시킵니다. GPT-2, Pythia 및 Gemma 2 모델에서 간접 목적어 식별(IOI)에 ACC++를 적용한 결과, 어떤 모델에서도 IOI에 대한 단일 회로는 존재하지 않았습니다. 다양한 프롬프트 템플릿이 체계적으로 다른 메커니즘을 유발했습니다. 이러한 다양성에도 불구하고, 프롬프트는 유사한 회로를 가진 프롬프트 그룹으로 묶이며, 우리는 각 그룹에 대한 대표적인 회로를 실질적인 분석 단위로 제안합니다. 마지막으로, ACC++ 신호를 사용하여 사람이 이해할 수 있는 특징을 추출하고 프롬프트 그룹의 동작에 대한 메커니즘적 설명을 구성하는 자동화된 해석 파이프라인을 개발했습니다. 종합적으로, 본 연구의 결과는 회로를 의미 있는 연구 대상으로 재정의하며, 분석 단위를 과제에서 프롬프트로 이동시켜 프롬프트별 메커니즘이 존재하는 상황에서도 확장 가능한 회로 설명을 가능하게 합니다.
Understanding the internal circuits that language models use to solve tasks remains a central challenge in mechanistic interpretability. Most prior work identifies circuits at the task level by averaging across many prompts, implicitly assuming a single stable mechanism per task. We show that this assumption can obscure a crucial source of structure: circuits are prompt-specific, even within a fixed task. Building on attention causal communication (ACC) (Franco & Crovella, 2025), we introduce ACC++, refinements that extract cleaner, lower-dimensional causal signals inside attention heads from a single forward pass. Like ACC, our approach does not require replacement models (e.g., SAEs) or activation patching; ACC++ further improves circuit precision by reducing attribution noise. Applying ACC++ to indirect object identification (IOI) in GPT-2, Pythia, and Gemma 2, we find there is no single circuit for IOI in any model: different prompt templates induce systematically different mechanisms. Despite this variation, prompts cluster into prompt families with similar circuits, and we propose a representative circuit for each family as a practical unit of analysis. Finally, we develop an automated interpretability pipeline that uses ACC++ signals to surface human-interpretable features and assemble mechanistic explanations for prompt families behavior. Together, our results recast circuits as a meaningful object of study by shifting the unit of analysis from tasks to prompts, enabling scalable circuit descriptions in the presence of prompt-specific mechanisms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.