검증 가능한 에이전트
Auditable Agents
LLM 에이전트는 도구를 호출하고, 데이터베이스를 쿼리하며, 작업을 위임하고, 외부적인 영향을 유발합니다. 에이전트 시스템이 실제로 세상에서 작동할 수 있게 되면, 더 이상 단순히 유해한 행동을 예방할 수 있는지 여부만이 중요한 것이 아니라, 배포 후에도 그러한 행동에 대한 책임을 물을 수 있는지 여부가 중요해집니다. 우리는 책임(준수 여부를 판단하고 책임을 할당할 수 있는 능력), 검증 가능성(책임 관리를 가능하게 하는 시스템 속성), 그리고 감사(신뢰할 수 있는 증거를 통해 행동을 재구성하는 과정)를 구분합니다. 우리의 주장은 명확합니다: 어떤 에이전트 시스템도 검증 가능성 없이는 책임을 질 수 없습니다. 이를 실현하기 위해, 우리는 에이전트의 검증 가능성의 다섯 가지 측면을 정의합니다: 행동 복원 가능성, 라이프사이클 범위, 정책 검증 가능성, 책임 귀속, 그리고 증거 무결성. 또한, 시간 정보 및 개입 제약 조건이 실제로는 어떤 단일 접근 방식도 충분하지 않은 이유를 설명하는 세 가지 메커니즘 클래스(탐지, 강제, 복구)를 식별합니다. 우리는 단일 벤치마크가 아닌 다층적인 증거를 통해 이러한 주장을 뒷받침합니다. 하한 생태계 측정 결과는 검증 가능성을 위한 기본적인 보안 요구 사항이 광범위하게 충족되지 않는다는 것을 보여줍니다 (6개의 유명한 오픈 소스 프로젝트에서 617건의 보안 문제 발견). 런타임 실행 가능성 결과는 변조 방지 기록을 사용한 사전 실행 중재가 평균 8.3ms의 오버헤드만 추가한다는 것을 보여줍니다. 또한, 통제된 복구 실험을 통해 기존 로그가 없는 경우에도 책임과 관련된 정보를 부분적으로 복구할 수 있음을 확인했습니다. 우리는 에이전트 시스템을 위한 '검증 가능성 카드'를 제안하고, 메커니즘 클래스별로 구성된 여섯 가지 연구 과제를 제시합니다.
LLM agents call tools, query databases, delegate tasks, and trigger external side effects. Once an agent system can act in the world, the question is no longer only whether harmful actions can be prevented--it is whether those actions remain answerable after deployment. We distinguish accountability (the ability to determine compliance and assign responsibility), auditability (the system property that makes accountability possible), and auditing (the process of reconstructing behavior from trustworthy evidence). Our claim is direct: no agent system can be accountable without auditability. To make this operational, we define five dimensions of agent auditability, i.e., action recoverability, lifecycle coverage, policy checkability, responsibility attribution, and evidence integrity, and identify three mechanism classes (detect, enforce, recover) whose temporal information-and-intervention constraints explain why, in practice, no single approach suffices. We support the position with layered evidence rather than a single benchmark: lower-bound ecosystem measurements suggest that even basic security prerequisites for auditability are widely unmet (617 security findings across six prominent open-source projects); runtime feasibility results show that pre-execution mediation with tamper-evident records adds only 8.3 ms median overhead; and controlled recovery experiments show that responsibility-relevant information can be partially recovered even when conventional logs are missing. We propose an Auditability Card for agent systems and identify six open research problems organized by mechanism class.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.