COMPASS: LLM의 조직 특화 정책 정렬 평가를 위한 프레임워크
COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
대규모 언어 모델(LLM)이 의료에서 금융에 이르는 고위험 기업용 애플리케이션에 배포됨에 따라, 조직별 특화 정책의 준수를 보장하는 것이 필수적이 되었습니다. 그러나 기존의 안전성 평가는 오직 보편적인 해악에만 초점을 맞추고 있습니다. 본 논문에서는 LLM이 조직의 허용 목록(allowlist) 및 차단 목록(denylist) 정책을 준수하는지 평가하기 위한 최초의 체계적 프레임워크인 COMPASS(기업/조직 정책 정렬 평가)를 제안합니다. 우리는 8가지의 다양한 산업 시나리오에 COMPASS를 적용하여, 전략적으로 설계된 엣지 케이스를 통해 일상적인 규정 준수 여부와 적대적 견고성을 모두 테스트하는 5,920개의 쿼리를 생성하고 검증했습니다. 7가지 최신 모델을 평가한 결과, 근본적인 비대칭성이 발견되었습니다. 모델들은 합당한 요청은 신뢰할 수 있는 수준(>95% 정확도)으로 처리했지만, 금지 사항을 집행하는 데 있어서는 치명적으로 실패하여 적대적 차단 목록 위반 사례의 13-40%만을 거부하는 데 그쳤습니다. 이러한 결과는 현재의 LLM이 정책 준수가 중요한 배포 환경에 필요한 견고성을 갖추지 못했음을 보여주며, 조직의 AI 안전을 위한 필수적인 평가 프레임워크로서 COMPASS의 중요성을 입증합니다.
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.
AI Analysis
Korean Summary
Key Innovations
- 보편적 유해성이 아닌 '조직별 특정 정책(Organization-Specific Policy)' 준수 여부를 평가하는 최초의 체계적 프레임워크 개발
- 허용(Allowlist) 및 차단(Denylist) 정책을 기반으로 기본 쿼리와 적대적 엣지 쿼리를 자동으로 합성하고 검증하는 파이프라인 구축
- 6가지 적대적 변형 전략(규제 해석, 유추, 문맥 과부하 등)을 통한 정책 경계 테스트 방법론
- 정책 준수 여부와 거절의 적절성을 종합적으로 측정하는 평가 지표인 PAS(Policy Alignment Score) 제안
- RAG, 프롬프트 엔지니어링, Pre-filtering 등 다양한 완화 전략의 한계와 미세 조정(SFT)의 효용성 분석
Learning & Inference Impact
추론(Inference) 단계에서는 RAG나 Few-shot 프롬프팅이 복잡한 정책 판단 능력을 근본적으로 개선하지 못하며, 외부 필터링 모델(Pre-filtering) 사용 시 과도한 거부(Over-refusal)가 발생하여 유용성이 저하되는 트레이드오프를 확인했습니다. 학습(Learning) 측면에서는 일반적인 안전 튜닝이 특정 조직의 정책 준수로 전이되지 않음을 보여주었으나, 정책 인식 미세 조정(Policy-aware Fine-tuning)을 통해 모델이 새로운 도메인의 정책 경계를 학습하고 일반화할 수 있음을 입증하여 기업용 LLM 구축 시 도메인 특화 데이터 학습의 필요성을 강조합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.