실용적인 해석 가능성은 대칭성을 기준으로 정의되어야 한다
Actionable Interpretability Must Be Defined in Terms of Symmetries
본 논문은 인공지능(AI) 분야의 해석 가능성 연구가 근본적으로 잘못 설정되어 있으며, 기존의 해석 가능성 정의는 해석 가능성을 어떻게 공식적으로 검증하거나 설계할 수 있는지 설명하지 못한다는 점을 주장합니다. 우리는 실용적인 해석 가능성 정의가 모델 설계에 영향을 미치고 검증 가능한 조건을 제시하는 *대칭성*을 기준으로 수립되어야 한다고 주장합니다. 확률론적 관점에서, 우리는 네 가지 대칭성(추론 등변성, 정보 불변성, 개념 폐쇄성 불변성, 구조적 불변성)이 (i) 해석 가능한 모델을 확률 모델의 하위 집합으로 공식화하고, (ii) 해석 가능한 추론(예: 정렬, 개입, 반사실)을 베이즈 역전의 한 형태로 통일적으로 설명하며, (iii) 안전 기준 및 규정 준수를 검증할 수 있는 공식적인 프레임워크를 제공하는 데 충분하다고 가정합니다.
This paper argues that interpretability research in Artificial Intelligence (AI) is fundamentally ill-posed as existing definitions of interpretability fail to describe how interpretability can be formally tested or designed for. We posit that actionable definitions of interpretability must be formulated in terms of *symmetries* that inform model design and lead to testable conditions. Under a probabilistic view, we hypothesise that four symmetries (inference equivariance, information invariance, concept-closure invariance, and structural invariance) suffice to (i) formalise interpretable models as a subclass of probabilistic models, (ii) yield a unified formulation of interpretable inference (e.g., alignment, interventions, and counterfactuals) as a form of Bayesian inversion, and (iii) provide a formal framework to verify compliance with safety standards and regulations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.