2603.01724v1 Mar 02, 2026 cs.AI

GMP: 동시 발생 위반 및 동적 규칙 환경에서의 콘텐츠 검열 벤치마크

GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

Jie Hao
Jie Hao
Citations: 13
h-index: 2
Houde Dong
Houde Dong
Citations: 0
h-index: 0
Yifei She
Yifei She
Citations: 0
h-index: 0
Kai Ye
Kai Ye
Citations: 25
h-index: 3
Chenxiong Qian
Chenxiong Qian
Citations: 49
h-index: 3
Liangcai Su
Liangcai Su
Citations: 11
h-index: 2

온라인 콘텐츠 검열은 건강한 디지털 환경을 유지하는 데 필수적이며, 이러한 작업에 AI를 활용하는 경향이 계속 증가하고 있습니다. 예를 들어, 사용자가 특정 국가의 고정관념을 사용하여 정치인을 비방하는 댓글을 작성하는 경우를 생각해 봅시다. 이 예시는 실제 시나리오에서 발생하는 두 가지 중요한 과제를 보여줍니다. (1) 동시 발생 위반: 하나의 게시물이 여러 정책을 위반하는 경우 (예: 편견 및 인신공격). (2) 동적 검열 규칙: 위반 여부 판단이 플랫폼별 지침에 따라 달라지며, 이는 맥락에 따라 변화합니다. 동시 발생 위반과 동적으로 변화하는 규칙의 교차점은 현재 AI 시스템의 핵심적인 한계를 강조합니다. 대규모 언어 모델(LLM)은 정해진 지침을 따르는 데 능숙하지만, 정책이 불안정하거나 맥락에 따라 달라질 경우 판단 능력이 저하됩니다. 실제로 이러한 단점은 일관성 없는 검열로 이어집니다. 즉, 정당한 표현을 부당하게 제한하거나 유해한 콘텐츠를 온라인에 그대로 남겨두는 경우가 발생할 수 있습니다. 이는 평가에 있어 중요한 질문을 제기합니다. 기존의 정적 벤치마크에서 높은 성능을 보이는 것이, 실제로 동시 발생 위반 및 동적으로 변화하는 규칙이 존재하는 실제 시나리오에서 AI의 판단 능력이 얼마나 안정적으로 일반화되는지를 보장하는가?

Original Abstract

Online content moderation is essential for maintaining a healthy digital environment, and reliance on AI for this task continues to grow. Consider a user comment using national stereotypes to insult a politician. This example illustrates two critical challenges in real-world scenarios: (1) Co-occurring Violations, where a single post violates multiple policies (e.g., prejudice and personal attacks); (2) Dynamic rules of moderation, where determination of a violation depends on platform-specific guidelines that evolve across contexts . The intersection of co-occurring harms and dynamically changing rules highlights a core limitation of current AI systems: although large language models (LLMs) are adept at following fixed guidelines, their judgment capabilities degrade when policies are unstable or context-dependent . In practice, such shortcomings lead to inconsistent moderation: either erroneously restricting legitimate expression or allowing harmful content to remain online . This raises a critical question for evaluation: Does high performance on existing static benchmarks truly guarantee robust generalization of AI judgment to real-world scenarios involving co-occurring violations and dynamically changing rules?

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!