설계 행동 코드 (DBC): 분류학 기반 계층적 거버넌스 벤치마크, 대규모 언어 모델 (LLM)을 위한
Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Governance Benchmark for Large Language Models
본 논문에서는 동적 행동 제약 (DBC) 벤치마크를 소개합니다. 이는 대규모 언어 모델 (LLM)의 추론 단계에서 적용되는 구조화된 150개의 제어 항목으로 구성된 'MDBC (Madan DBC) 시스템'의 효과를 평가하는 최초의 실증적 프레임워크입니다. DBC는 RLHF 또는 DPO와 같은 학습 시간 정렬 방법, 또는 사후 콘텐츠 관리 API와 달리, 모델에 독립적이고, 관할 구역에 매핑 가능하며, 감사 가능한 시스템 프롬프트 수준의 거버넌스 계층을 구성합니다. 본 연구에서는 30개의 도메인 위험 분류 체계를 사용하여 '환각 및 교정', '편향 및 공정성', '악의적 사용', '개인 정보 보호', '강건성 및 신뢰성', '불일치 문제'의 6개 클러스터로 구성된 LLM을 평가했습니다. '에이전트 기반 레드팀' 프로토콜을 사용하여 5가지 적대적 공격 전략 (직접 공격, 역할극, Few-Shot, 가상 시나리오, 권위 위조)을 적용했습니다. '베이스', '베이스 + 콘텐츠 Moderation', '베이스 + DBC'의 세 가지 실험 설계를 통해 위험 감소의 인과 관계를 파악했습니다. 주요 결과는 DBC 계층이 전체 위험 노출률 (RER)을 7.19% (베이스)에서 4.55% (베이스 + DBC)로 감소시켜 36.8%의 상대적 위험 감소를 가져왔으며, 이는 표준 안전 Moderation 프롬프트의 0.6%에 비해 훨씬 높은 수치입니다. MDBC 준수 점수는 8.6 (베이스)에서 8.7 (베이스 + DBC)로 향상되었습니다. EU AI Act 준수 (자동 평가)는 DBC 계층 하에서 8.5점을 달성했습니다. 세 명의 평가자가 참여하는 평가 시스템은 Fleiss kappa 값이 0.70 이상으로, 높은 수준의 합의를 보여주며, 자동화된 파이프라인의 유효성을 검증했습니다. 클러스터 분석 결과, '무결성 보호' 클러스터 (MDBC 081 099)가 각 도메인별 위험 감소 효과가 가장 높은 것으로 나타났습니다. 또한, '그레이박스' 적대적 공격은 DBC 우회율 4.83%를 보였습니다. 본 연구에서는 벤치마크 코드, 프롬프트 데이터베이스, 모든 평가 결과물을 공개하여 재현성을 확보하고, 모델의 발전 과정에 따른 장기적인 추적을 가능하게 합니다.
We introduce the Dynamic Behavioral Constraint (DBC) benchmark, the first empirical framework for evaluating the efficacy of a structured, 150-control behavioral governance layer, the MDBC (Madan DBC) system, applied at inference time to large language models (LLMs). Unlike training time alignment methods (RLHF, DPO) or post-hoc content moderation APIs, DBCs constitute a system prompt level governance layer that is model-agnostic, jurisdiction-mappable, and auditable. We evaluate the DBC Framework across a 30 domain risk taxonomy organized into six clusters (Hallucination and Calibration, Bias and Fairness, Malicious Use, Privacy and Data Protection, Robustness and Reliability, and Misalignment Agency) using an agentic red-team protocol with five adversarial attack strategies (Direct, Roleplay, Few-Shot, Hypothetical, Authority Spoof) across 3 model families. Our three-arm controlled design (Base, Base plus Moderation, Base plus DBC) enables causal attribution of risk reduction. Key findings: the DBC layer reduces the aggregate Risk Exposure Rate (RER) from 7.19 percent (Base) to 4.55 percent (Base plus DBC), representing a 36.8 percent relative risk reduction, compared with 0.6 percent for a standard safety moderation prompt. MDBC Adherence Scores improve from 8.6 by 10 (Base) to 8.7 by 10 (Base plus DBC). EU AI Act compliance (automated scoring) reaches 8.5by 10 under the DBC layer. A three judge evaluation ensemble yields Fleiss kappa greater than 0.70 (substantial agreement), validating our automated pipeline. Cluster ablation identifies the Integrity Protection cluster (MDBC 081 099) as delivering the highest per domain risk reduction, while graybox adversarial attacks achieve a DBC Bypass Rate of 4.83 percent . We release the benchmark code, prompt database, and all evaluation artefacts to enable reproducibility and longitudinal tracking as models evolve.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.