2605.01329v1 May 02, 2026 cs.AI

진실인가, 아니면 동족애인가: 인-그룹 편향성이 페르소나 에이전트에서 사실을 어떻게 우선시하는가

Truth or Tribe: How In-group Favoritism Prioritize Facts in Persona Agents

Zhiwen Yu
Zhiwen Yu
Citations: 325
h-index: 9
Shijun Lei
Shijun Lei
Citations: 131
h-index: 5
Hongyu Wang
Hongyu Wang
Citations: 20
h-index: 2
Yunji Liang
Yunji Liang
Citations: 1,273
h-index: 15
Haowen Zheng
Haowen Zheng
Citations: 3
h-index: 1
Bin Guo
Bin Guo
Citations: 57
h-index: 4

인-그룹 편향성은 자신의 집단 구성원을 다른 집단 구성원보다 선호하는 현상으로, 다양한 사회적 협력 행동에서 널리 관찰됩니다. 최근에는 생성 언어 모델에서도 인-그룹 편향성이 나타나는 것으로 확인되었습니다. 그러나 페르소나 에이전트가 상반된 정보(예: 허위 정보)에 직면했을 때 인-그룹 편향성이 존재하는지, 그리고 페르소나 에이전트의 인-그룹 편향성으로 인한 부정적인 영향을 어떻게 완화할 수 있는지에 대한 연구는 부족했습니다. 이러한 문제점을 해결하기 위해, 우리는 상반된 정보가 확산되는 과정에서 에이전트의 협력을 연구하기 위한 '진실인가, 아니면 동족애인가' 시뮬레이션 프레임워크를 제안하고, 주요 조정 요인을 평가하기 위한 통제된 실험을 수행했습니다. 광범위한 결과는 페르소나 에이전트가 강한 인-그룹 편향성을 나타내며, 자기와 유사한 집단 구성원으로부터는 부정확한 답변을 유사하지 않은 집단 구성원으로부터 받는 것보다 훨씬 높은 비율로 수용한다는 것을 보여줍니다. 절대적인 진실이 존재하지 않는 경우에도 인-그룹 편향성이 지속적으로 나타나며, 인지적 복잡성이 증가함에 따라 더욱 심화됩니다. 또한, 인-그룹 편향성을 완화하기 위한 세 가지 전략, 즉 '신원 무시 지침', '구조화된 반사실적 추론', 그리고 '다양한 관점 앙상블'을 제안합니다.

Original Abstract

In-group favoritism refers to the phenomena of favoring members of one's in-group over out-group members and is widely observed in numerous social cooperative behaviors. Recently, in-group favoritism biases have also been identified in generative language models. However, whether the in-group favoritism exists when persona agents are faced with contradicting information (e.g., misinformation), and how to mitigate the adverse effects of in-group favoritism biases in persona agents have been understudied. To address these problems, we propose a Truth or Tribe simulation framework to study the agent cooperation within the spread of contradicting information through a triadic interaction paradigm, and conduct controlled trials to evaluate the primary moderating factors. Extensive results showcase that persona agents display strong in-group favoritism, accepting incorrect answers from identity-similar peers at much higher rates than from dissimilar peers. In-group favoritism continues to emerge in defeasible reasoning contexts where no absolute truth exists, and it intensifies as cognitive complexity increases. Furthermore, three intervention strategies--Identity-Blind Instruction, Structured Counterfactual Reasoning, and Heterogeneous Perspective Ensemble--are proposed to mitigate the in-group favoritism.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!