GRACE: 규범적 일관성을 위한 신경-기호 추론 기반 아키텍처 - 안전하고 윤리적인 AI 정렬
Breaking Up with Normatively Monolithic Agency with GRACE: A Reason-Based Neuro-Symbolic Architecture for Safe and Ethical AI Alignment
AI 에이전트가 점점 더 자율화되고, 다양한 영역에서 활용되며, 실제 세계에 큰 영향을 미치는 상황에서, AI의 의사 결정이 단순히 효율적일 뿐만 아니라 규범적으로도 일관성을 갖도록 하는 것이 중요해졌습니다. 본 논문에서는 규범적 추론과 의사 결정 기능을 분리하고, 거의 모든 형태의 AI 에이전트를 제어할 수 있는 신경-기호 추론 기반 제어 아키텍처인 Governor for Reason-Aligned ContainmEnt (GRACE)를 소개합니다. GRACE는 의사 결정을 세 가지 모듈로 구성합니다. 첫째, 의무론적 논리를 기반으로 허용 가능한 거시적 행동을 결정하는 '도덕 모듈(MM)'입니다. 둘째, 대상 에이전트를 포함하면서 도출된 거시적 행동에 따라 최적의 기본 행동을 선택하는 '의사 결정 모듈(DMM)'입니다. 셋째, 도덕적 준수를 감시하고 강제하는 '가드(Guard)'입니다. MM은 추론 기반 형식을 사용하여 의무론적 논리에 대한 의미론적 기반을 제공하며, 해석 가능성, 이의 제기 가능성 및 정당화 가능성을 가능하게 합니다. 이러한 기호적 표현은 DMM의 정보 맥락을 풍부하게 하고, 가드에 의해 강제되는 정렬에 대한 형식적 검증 및 통계적 보장을 지원합니다. 본 논문에서는 LLM 기반 치료 보조 시스템의 예시를 통해 GRACE가 이해 관계자들이 에이전트의 행동을 이해하고, 이의를 제기하고, 개선할 수 있도록 하는 방법을 보여줍니다.
As AI agents become increasingly autonomous, widely deployed in consequential contexts, and efficacious in bringing about real-world impacts, ensuring that their decisions are not only instrumentally effective but also normatively aligned has become critical. We introduce a neuro-symbolic reason-based containment architecture, Governor for Reason-Aligned ContainmEnt (GRACE), that decouples normative reasoning from instrumental decision-making and can contain AI agents of virtually any design. GRACE restructures decision-making into three modules: a Moral Module (MM) that determines permissible macro actions via deontic logic-based reasoning; a Decision-Making Module (DMM) that encapsulates the target agent while selecting instrumentally optimal primitive actions in accordance with derived macro actions; and a Guard that monitors and enforces moral compliance. The MM uses a reason-based formalism providing a semantic foundation for deontic logic, enabling interpretability, contestability, and justifiability. Its symbolic representation enriches the DMM's informational context and supports formal verification and statistical guarantees of alignment enforced by the Guard. We demonstrate GRACE on an example of a LLM therapy assistant, showing how it enables stakeholders to understand, contest, and refine agent behavior.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.