위치 발표: 행동 기반 보증은 현재 요구되는 안전성 주장을 검증할 수 없다
Position: Behavioural Assurance Cannot Verify the Safety Claims Governance Now Demands
본 논문은 행동 기반 보증이 신중하게 설계되었더라도 검증할 수 없는 안전성 주장을 요구받고 있다는 주장을 제시합니다. 2019년부터 2026년 초까지 제정된 인공지능 거버넌스 프레임워크는 숨겨진 목표의 부재, 통제력 상실의 전조에 대한 저항성, 제한된 재앙적 능력과 같은 특성에 대한 검토 가능한 증거를 요구합니다. 현재의 보증 방법론(주로 행동 평가 및 레드 팀 활동)은 관찰 가능한 모델 출력에만 인식론적으로 제한되어 있으며, 이러한 프레임워크가 규제한다고 가정하는 잠재적 표현이나 장기적인 자율적 행동을 검증할 수 없습니다. 우리는 이러한 구조적 불일치를 '감사 격차'라고 정의하며, 요구되는 검증 접근성과 달성 가능한 검증 접근성의 차이를 의미합니다. 또한, 증거 구조가 주장된 안전성 주장을 뒷받침하지 못하는 경우를 설명하기 위해 '취약한 보증'이라는 개념을 소개합니다. 21가지 요소로 구성된 목록을 분석한 결과, 지정학적 및 산업적 압력이 표면적인 행동적 지표를 심층적인 구조적 검증보다 체계적으로 더 많이 보상하는 경향이 있음을 확인했습니다. 마지막으로, 우리는 기술적인 전환을 제안합니다. 즉, 법률 문서에서 행동적 증거의 가중치를 제한하고, 선형 프로브, 활성화 패치, 사전/사후 훈련 비교와 같은 기계적 증거 클래스를 통해 자발적인 사전 배포 접근성을 확장해야 합니다.
This position paper argues that behavioural assurance, even when carefully designed, is being asked to carry safety claims it cannot verify. AI governance frameworks enacted between 2019 and early 2026 require reviewable evidence of properties such as the absence of hidden objectives, resistance to loss-of-control precursors, and bounded catastrophic capability; current assurance methodologies (primarily behavioural evaluations and red-teaming) are epistemically limited to observable model outputs and cannot verify the latent representations or long-horizon agentic behaviours these frameworks presume to regulate. We formalize this structural mismatch as the audit gap, the divergence between required and achievable verification access, and introduce the concept of fragile assurance to describe cases where the evidential structure does not support the asserted safety claim. Through an analysis of a 21-instrument inventory, we identify an incentive gradient where geopolitical and industrial pressures systematically reward surface-level behavioral proxies over deep structural verification. Finally, we propose a technical pivot: bounding the weight of behavioral evidence in legal text and extending voluntary pre-deployment access with mechanistic-evidence classes, specifically linear probes, activation patching, and before/after-training comparisons.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.