2602.22968v1 Feb 26, 2026 cs.AI

인증된 회로: 메커니즘 회로의 안정성 보장

Certified Circuits: Stability Guarantees for Mechanistic Circuits

Tobias Lorenz
Tobias Lorenz
CISPA Helmholtz Center for Information Security
Citations: 1,065
h-index: 3
Mario Fritz
Mario Fritz
Citations: 270
h-index: 4
B. Schiele
B. Schiele
Citations: 94,533
h-index: 136
Alaa Anani
Alaa Anani
Citations: 9
h-index: 2
Jonas Fischer
Jonas Fischer
Citations: 8
h-index: 1

신경망이 예측을 어떻게 내리는지 이해하는 것은 디버깅, 감사 및 배포에 필수적입니다. 메커니즘 해석성은 특정 동작을 담당하는 최소 부분 네트워크인 회로를 식별하여 이 목표를 추구합니다. 그러나 기존 회로 발견 방법은 불안정합니다. 회로는 선택된 개념 데이터셋에 크게 의존하며, 종종 데이터 분포 외부에서 작동하지 않아 회로가 개념 자체를 나타내는지 아니면 데이터셋에 특정한 현상을 나타내는 것인지 의문을 제기합니다. 우리는 회로 발견에 대한 증명 가능한 안정성 보장을 제공하는 "인증된 회로(Certified Circuits)"를 소개합니다. 우리의 프레임워크는 블랙박스 발견 알고리즘을 랜덤 데이터 부분 샘플링으로 감싸서 회로 구성 요소 포함 여부 결정이 개념 데이터셋의 경계 내 편집 거리 변화에 불변하도록 보장합니다. 불안정한 뉴런은 제외하여 더욱 작고 정확한 회로를 얻습니다. ImageNet 및 OOD 데이터셋에서 인증된 회로는 기본 모델보다 최대 91% 더 높은 정확도를 달성하면서 45% 더 적은 뉴런을 사용하며, 기본 모델의 성능이 저하되는 경우에도 안정적인 성능을 유지합니다. 인증된 회로는 회로 발견을 형식적인 기반 위에 올려놓아 증명 가능한 안정성을 갖는 메커니즘 설명을 제공하고, 목표 개념과 더 잘 일치하도록 합니다. 코드는 곧 공개될 예정입니다!

Original Abstract

Understanding how neural networks arrive at their predictions is essential for debugging, auditing, and deployment. Mechanistic interpretability pursues this goal by identifying circuits - minimal subnetworks responsible for specific behaviors. However, existing circuit discovery methods are brittle: circuits depend strongly on the chosen concept dataset and often fail to transfer out-of-distribution, raising doubts whether they capture concept or dataset-specific artifacts. We introduce Certified Circuits, which provide provable stability guarantees for circuit discovery. Our framework wraps any black-box discovery algorithm with randomized data subsampling to certify that circuit component inclusion decisions are invariant to bounded edit-distance perturbations of the concept dataset. Unstable neurons are abstained from, yielding circuits that are more compact and more accurate. On ImageNet and OOD datasets, certified circuits achieve up to 91% higher accuracy while using 45% fewer neurons, and remain reliable where baselines degrade. Certified Circuits puts circuit discovery on formal ground by producing mechanistic explanations that are provably stable and better aligned with the target concept. Code will be released soon!

0 Citations
0 Influential
30 Altmetric
150.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!