2601.01836v1 Jan 05, 2026 cs.AI

COMPASS: LLM의 조직 특화 정책 정렬 평가를 위한 프레임워크

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

DongGeon Lee
DongGeon Lee
Pohang University of Science and Technology, POSTECH
Citations: 41
h-index: 4
Brigitta Jesica Kartono
Brigitta Jesica Kartono
Citations: 3
h-index: 1
Helena Berndt
Helena Berndt
Citations: 3
h-index: 1
Taeyoun Kwon
Taeyoun Kwon
Citations: 12
h-index: 3
Joonwon Jang
Joonwon Jang
Citations: 56
h-index: 5
Hwanjo Yu
Hwanjo Yu
Citations: 284
h-index: 4
Minsuk Kahng
Minsuk Kahng
Yonsei University
Citations: 4,959
h-index: 23
Dasol Choi
Dasol Choi
Citations: 76
h-index: 4
Haon Park
Haon Park
Citations: 347
h-index: 2

대규모 언어 모델(LLM)이 의료에서 금융에 이르는 고위험 기업용 애플리케이션에 배포됨에 따라, 조직별 특화 정책의 준수를 보장하는 것이 필수적이 되었습니다. 그러나 기존의 안전성 평가는 오직 보편적인 해악에만 초점을 맞추고 있습니다. 본 논문에서는 LLM이 조직의 허용 목록(allowlist) 및 차단 목록(denylist) 정책을 준수하는지 평가하기 위한 최초의 체계적 프레임워크인 COMPASS(기업/조직 정책 정렬 평가)를 제안합니다. 우리는 8가지의 다양한 산업 시나리오에 COMPASS를 적용하여, 전략적으로 설계된 엣지 케이스를 통해 일상적인 규정 준수 여부와 적대적 견고성을 모두 테스트하는 5,920개의 쿼리를 생성하고 검증했습니다. 7가지 최신 모델을 평가한 결과, 근본적인 비대칭성이 발견되었습니다. 모델들은 합당한 요청은 신뢰할 수 있는 수준(>95% 정확도)으로 처리했지만, 금지 사항을 집행하는 데 있어서는 치명적으로 실패하여 적대적 차단 목록 위반 사례의 13-40%만을 거부하는 데 그쳤습니다. 이러한 결과는 현재의 LLM이 정책 준수가 중요한 배포 환경에 필요한 견고성을 갖추지 못했음을 보여주며, 조직의 AI 안전을 위한 필수적인 평가 프레임워크로서 COMPASS의 중요성을 입증합니다.

Original Abstract

As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.

3 Citations
0 Influential
11.5 Altmetric
60.5 Score
Original PDF

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM)이 범용적인 안전 기준(예: 혐오 발언 금지)을 넘어, 기업이나 조직이 정의한 구체적인 정책(허용 목록 및 차단 목록)을 얼마나 잘 준수하는지 평가하는 프레임워크인 'COMPASS'를 제안합니다. 8개 산업 도메인(의료, 금융, 자동차 등)에 대한 시나리오를 바탕으로 5,920개의 평가 쿼리를 생성하여 실험한 결과, 최신 모델들은 허용된 요청은 95% 이상 잘 처리하지만, 금지된 요청을 거절하는 데에는 13~40%의 낮은 성공률을 보였습니다. 특히 교묘하게 설계된 엣지 케이스(Edge Case)에서 모델의 방어 기제가 쉽게 무력화됨을 확인했으며, 이는 단순한 프롬프트 엔지니어링이나 RAG(검색 증강 생성)로 해결하기 어려운 근본적인 비대칭성임을 밝혀냈습니다.

Key Innovations

  • 보편적 유해성이 아닌 '조직별 특정 정책(Organization-Specific Policy)' 준수 여부를 평가하는 최초의 체계적 프레임워크 개발
  • 허용(Allowlist) 및 차단(Denylist) 정책을 기반으로 기본 쿼리와 적대적 엣지 쿼리를 자동으로 합성하고 검증하는 파이프라인 구축
  • 6가지 적대적 변형 전략(규제 해석, 유추, 문맥 과부하 등)을 통한 정책 경계 테스트 방법론
  • 정책 준수 여부와 거절의 적절성을 종합적으로 측정하는 평가 지표인 PAS(Policy Alignment Score) 제안
  • RAG, 프롬프트 엔지니어링, Pre-filtering 등 다양한 완화 전략의 한계와 미세 조정(SFT)의 효용성 분석

Learning & Inference Impact

추론(Inference) 단계에서는 RAG나 Few-shot 프롬프팅이 복잡한 정책 판단 능력을 근본적으로 개선하지 못하며, 외부 필터링 모델(Pre-filtering) 사용 시 과도한 거부(Over-refusal)가 발생하여 유용성이 저하되는 트레이드오프를 확인했습니다. 학습(Learning) 측면에서는 일반적인 안전 튜닝이 특정 조직의 정책 준수로 전이되지 않음을 보여주었으나, 정책 인식 미세 조정(Policy-aware Fine-tuning)을 통해 모델이 새로운 도메인의 정책 경계를 학습하고 일반화할 수 있음을 입증하여 기업용 LLM 구축 시 도메인 특화 데이터 학습의 필요성을 강조합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!