문화적 나침반: 인간-AI 대화에서 규범 위반을 감지하기 위한 사회적 규범 체계
Cultural Compass: A Framework for Organizing Societal Norms to Detect Violations in Human-AI Conversations
생성형 AI 모델은 다양한 문화적 배경에서 유용하고 안전해야 합니다. 이를 위한 중요한 단계 중 하나는 AI 모델이 사회문화적 규범을 어떻게 준수하는지 이해하는 것입니다. 자연어 처리 분야에서 이 문제는 주목받고 있지만, 기존 연구는 모델의 규범 준수 여부를 이해하고 평가하는 데 있어 세부적인 측면과 범위가 부족합니다. 우리는 이러한 격차를 해소하기 위해, 모델이 인식해야 할 인간-인간 규범과 인간-AI 상호작용 자체에 적용되는 규범을 구분하는 등, 규범의 맥락, 구체적인 내용, 그리고 적용 메커니즘을 명확히 정의하는 규범 분류 체계를 제안합니다. 우리는 이 분류 체계를 사용하여, 실제 사용 환경에서 모델의 규범 준수 여부를 자동으로 평가하는 방법을 보여줍니다. 탐색적 분석 결과, 최첨단 모델들이 종종 규범을 위반하지만, 위반율은 모델, 상호작용 맥락, 그리고 국가에 따라 다릅니다. 또한, 프롬프트의 의도와 상황 설정에 따라서도 위반율이 달라지는 것을 확인했습니다. 우리의 분류 체계와 시연 평가 파이프라인은 실제 환경에서 문화적 규범 준수 여부를 미세하고 맥락에 민감하게 평가할 수 있도록 지원합니다.
Generative AI models ought to be useful and safe across cross-cultural contexts. One critical step toward this goal is understanding how AI models adhere to sociocultural norms. While this challenge has gained attention in NLP, existing work lacks both nuance and coverage in understanding and evaluating models' norm adherence. We address these gaps by introducing a taxonomy of norms that clarifies their contexts (e.g., distinguishing between human-human norms that models should recognize and human-AI interactional norms that apply to the human-AI interaction itself), specifications (e.g., relevant domains), and mechanisms (e.g., modes of enforcement). We demonstrate how our taxonomy can be operationalized to automatically evaluate models' norm adherence in naturalistic, open-ended settings. Our exploratory analyses suggest that state-of-the-art models frequently violate norms, though violation rates vary by model, interactional context, and country. We further show that violation rates also vary by prompt intent and situational framing. Our taxonomy and demonstrative evaluation pipeline enable nuanced, context-sensitive evaluation of cultural norm adherence in realistic settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.