2601.10520v1 Jan 15, 2026 cs.AI

GRACE를 통한 규범적 일체형 에이전시로부터의 탈피: 안전하고 윤리적인 AI 정렬을 위한 근거 기반 뉴로 심볼릭 아키텍처

Breaking Up with Normatively Monolithic Agency with GRACE: A Reason-Based Neuro-Symbolic Architecture for Safe and Ethical AI Alignment

Felix Jahn
Felix Jahn
Citations: 9
h-index: 2
Yannic Muskalla
Yannic Muskalla
Citations: 1
h-index: 1
Lisa Dargasz
Lisa Dargasz
Citations: 3
h-index: 1
P. Schramowski
P. Schramowski
Citations: 8,096
h-index: 25
Kevin Baum
Kevin Baum
Citations: 3
h-index: 1

AI 에이전트가 점차 자율화되고, 중대한 상황에 널리 배치되며, 실질적인 현실 영향을 미치는 데 유능해짐에 따라, 그들의 결정이 도구적으로 효과적일 뿐만 아니라 규범적으로도 정렬되도록 보장하는 것이 중요해졌다. 우리는 규범적 추론을 도구적 의사결정과 분리하고 사실상 모든 설계의 AI 에이전트를 제어할 수 있는 뉴로 심볼릭 근거 기반 제어 아키텍처인 GRACE(Governor for Reason-Aligned ContainmEnt)를 소개한다. GRACE는 의사결정을 세 가지 모듈로 재구성한다. 첫째, 의무 논리 기반 추론을 통해 허용 가능한 매크로 행동을 결정하는 도덕 모듈(MM), 둘째, 도출된 매크로 행동에 따라 도구적으로 최적의 기본 행동을 선택하면서 대상 에이전트를 캡슐화하는 의사결정 모듈(DMM), 셋째, 도덕적 준수를 모니터링하고 강제하는 가드(Guard)이다. MM은 의무 논리에 대한 의미론적 토대를 제공하는 근거 기반 형식을 사용하여 해석 가능성, 이의 제기 가능성, 정당화 가능성을 부여한다. 그 기호적 표현은 DMM의 정보 맥락을 풍부하게 하고, 가드에 의해 강제되는 정렬의 형식 검증 및 통계적 보장을 지원한다. 우리는 LLM 심리 상담 어시스턴트의 예시를 통해 GRACE를 시연하며, 이것이 이해관계자들이 에이전트의 행동을 이해하고, 이의를 제기하며, 개선할 수 있게 하는 방법을 보여준다.

Original Abstract

As AI agents become increasingly autonomous, widely deployed in consequential contexts, and efficacious in bringing about real-world impacts, ensuring that their decisions are not only instrumentally effective but also normatively aligned has become critical. We introduce a neuro-symbolic reason-based containment architecture, Governor for Reason-Aligned ContainmEnt (GRACE), that decouples normative reasoning from instrumental decision-making and can contain AI agents of virtually any design. GRACE restructures decision-making into three modules: a Moral Module (MM) that determines permissible macro actions via deontic logic-based reasoning; a Decision-Making Module (DMM) that encapsulates the target agent while selecting instrumentally optimal primitive actions in accordance with derived macro actions; and a Guard that monitors and enforces moral compliance. The MM uses a reason-based formalism providing a semantic foundation for deontic logic, enabling interpretability, contestability, and justifiability. Its symbolic representation enriches the DMM's informational context and supports formal verification and statistical guarantees of alignment enforced by the Guard. We demonstrate GRACE on an example of a LLM therapy assistant, showing how it enables stakeholders to understand, contest, and refine agent behavior.

1 Citations
0 Influential
12.5 Altmetric
63.5 Score
Original PDF

AI Analysis

Korean Summary

이 논문은 기존 AI 에이전트가 도구적 목표 달성과 도덕적/규범적 제약을 단일 정책(Policy)으로 압축하여 발생하는 불투명성과 취약성을 해결하기 위해, 'GRACE(Governor for Reason-Aligned ContainmEnt)'라는 신경-기호(Neuro-Symbolic) 아키텍처를 제안합니다. GRACE는 의사결정 과정을 규범적 추론을 담당하는 '도덕 모듈(MM)', 도구적 목표를 최적화하는 '의사결정 모듈(DMM)', 그리고 행동의 준수 여부를 감시하는 '가드(Guard)'로 구조적으로 분리합니다. 이를 통해 AI 에이전트의 행동에 대한 투명한 정당화(Justification)를 제공하고, 외부의 '도덕 조언자(Moral Advisor)'를 통해 윤리적 판단 기준을 수정 및 개선할 수 있게 하여 안전하고 윤리적인 AI 정렬(Alignment)을 구현합니다.

Key Innovations

  • 도구적 결정과 규범적 추론을 명시적으로 분리하여 단일 정책 함수의 '평탄화 문제(Flattening Problem)' 해결
  • 이유(Reason) 기반의 디폴트 논리(Default Logic)를 사용하여 해석 가능한 도덕적 제약을 생성하는 '도덕 모듈(MM)' 도입
  • 신경망 기반 에이전트와 기호적 제약을 연결하는 인터페이스로 '매크로 행동 유형(MATs)' 정의
  • 사례 기반 피드백을 통해 도덕적 이유 이론을 점진적으로 학습하고 수정하는 '도덕 조언자(Moral Advisor)' 메커니즘
  • 허용된 행동 유형 내에서만 원시 행동(Primitive Actions)이 실행되도록 강제하는 '가드(Guard)' 시스템

Learning & Inference Impact

추론 과정에서 GRACE는 단일 모델의 불투명한 연산 대신, 도덕 모듈이 먼저 허용 가능한 행동의 범위를 기호 논리로 규명하고, 의사결정 모듈이 그 제약 안에서 최적의 행동을 선택하며, 가드가 이를 검증하는 다단계 파이프라인을 형성합니다. 학습 측면에서는 '분할 정복(divide-and-conquer)' 접근 방식을 가능하게 하여, 거대 언어 모델(LLM)과 같은 핵심 에이전트 전체를 재학습시키지 않고도 도덕 모듈의 논리 규칙이나 우선순위만 업데이트함으로써 에이전트의 윤리적 행동을 효율적으로 수정하고 제어할 수 있습니다. 이는 AI의 행동에 대한 설명 가능성을 높이고, 새로운 도덕적 상황에 대한 적응성을 강화합니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!