2603.01724v1 Mar 02, 2026 cs.AI

GMP: 동시 발생 위반 및 동적 규칙 환경에서의 콘텐츠 검열 벤치마크

GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

Jie Hao
Jie Hao
Citations: 18
h-index: 3
Yifei She
Yifei She
Citations: 0
h-index: 0
Kai Ye
Kai Ye
Citations: 68
h-index: 5
Chenxiong Qian
Chenxiong Qian
Citations: 70
h-index: 4
Liangcai Su
Liangcai Su
Citations: 23
h-index: 3
Houde Dong
Houde Dong
Citations: 1
h-index: 1

온라인 콘텐츠 검열은 건강한 디지털 환경을 유지하는 데 필수적이며, 이러한 작업에 AI를 활용하는 경향이 계속 증가하고 있습니다. 예를 들어, 사용자가 특정 국가의 고정관념을 사용하여 정치인을 비방하는 댓글을 작성하는 경우를 생각해 봅시다. 이 예시는 실제 시나리오에서 발생하는 두 가지 중요한 과제를 보여줍니다. (1) 동시 발생 위반: 하나의 게시물이 여러 정책을 위반하는 경우 (예: 편견 및 인신공격). (2) 동적 검열 규칙: 위반 여부 판단이 플랫폼별 지침에 따라 달라지며, 이는 맥락에 따라 변화합니다. 동시 발생 위반과 동적으로 변화하는 규칙의 교차점은 현재 AI 시스템의 핵심적인 한계를 강조합니다. 대규모 언어 모델(LLM)은 정해진 지침을 따르는 데 능숙하지만, 정책이 불안정하거나 맥락에 따라 달라질 경우 판단 능력이 저하됩니다. 실제로 이러한 단점은 일관성 없는 검열로 이어집니다. 즉, 정당한 표현을 부당하게 제한하거나 유해한 콘텐츠를 온라인에 그대로 남겨두는 경우가 발생할 수 있습니다. 이는 평가에 있어 중요한 질문을 제기합니다. 기존의 정적 벤치마크에서 높은 성능을 보이는 것이, 실제로 동시 발생 위반 및 동적으로 변화하는 규칙이 존재하는 실제 시나리오에서 AI의 판단 능력이 얼마나 안정적으로 일반화되는지를 보장하는가?

Original Abstract

Online content moderation is essential for maintaining a healthy digital environment, and reliance on AI for this task continues to grow. Consider a user comment using national stereotypes to insult a politician. This example illustrates two critical challenges in real-world scenarios: (1) Co-occurring Violations, where a single post violates multiple policies (e.g., prejudice and personal attacks); (2) Dynamic rules of moderation, where determination of a violation depends on platform-specific guidelines that evolve across contexts . The intersection of co-occurring harms and dynamically changing rules highlights a core limitation of current AI systems: although large language models (LLMs) are adept at following fixed guidelines, their judgment capabilities degrade when policies are unstable or context-dependent . In practice, such shortcomings lead to inconsistent moderation: either erroneously restricting legitimate expression or allowing harmful content to remain online . This raises a critical question for evaluation: Does high performance on existing static benchmarks truly guarantee robust generalization of AI judgment to real-world scenarios involving co-occurring violations and dynamically changing rules?

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!