2603.01952v1 Mar 02, 2026 cs.AI

LiveCultureBench: 대규모 언어 모델의 동적 사회 시뮬레이션을 위한 다중 에이전트, 다문화 벤치마크

LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations

V. Pham
V. Pham
Citations: 10
h-index: 2
Lizhen Qu
Lizhen Qu
Citations: 499
h-index: 12
Thuy-Trang Vu
Thuy-Trang Vu
Citations: 570
h-index: 11
Gholamreza Haffari
Gholamreza Haffari
Citations: 15,406
h-index: 45
D.Q. Phung
D.Q. Phung
Citations: 349
h-index: 10

대규모 언어 모델(LLM)은 자율 에이전트로 점점 더 많이 사용되고 있지만, 평가의 초점은 주로 작업 성공 여부에 있으며, 문화적 적절성이나 평가자 신뢰성은 고려되지 않는 경우가 많습니다. 본 논문에서는 LiveCultureBench를 소개합니다. LiveCultureBench는 LLM을 시뮬레이션된 마을의 에이전트로 배치하고, 작업 완료 여부와 사회-문화적 규범 준수 여부를 모두 평가하는 다문화, 동적 벤치마크입니다. 이 시뮬레이션은 다양한 인구 통계 및 문화적 배경을 가진 가상 거주자들이 있는 작은 도시를 위치 그래프로 모델링합니다. 각 에피소드에서 한 명의 거주자에게 일일 목표가 할당되고, 다른 거주자들은 사회적 맥락을 제공합니다. LLM 기반 검증기는 규범 위반 및 작업 진행 상황에 대한 구조화된 판단을 생성하며, 이를 사용하여 작업-규범 균형 및 검증자 불확실성을 나타내는 지표를 산출합니다. LiveCultureBench를 사용하여 다양한 모델과 문화적 배경에서 (i) LLM 에이전트의 문화 간 견고성, (ii) LLM 에이전트가 효과성과 규범 민감성 간의 균형을 어떻게 맞추는지, (iii) LLM을 평가자로 사용하는 평가가 자동화된 벤치마킹에 얼마나 신뢰할 수 있는지, 그리고 언제 인간의 감독이 필요한지를 연구합니다.

Original Abstract

Large language models (LLMs) are increasingly deployed as autonomous agents, yet evaluations focus primarily on task success rather than cultural appropriateness or evaluator reliability. We introduce LiveCultureBench, a multi-cultural, dynamic benchmark that embeds LLMs as agents in a simulated town and evaluates them on both task completion and adherence to socio-cultural norms. The simulation models a small city as a location graph with synthetic residents having diverse demographic and cultural profiles. Each episode assigns one resident a daily goal while others provide social context. An LLM-based verifier generates structured judgments on norm violations and task progress, which we aggregate into metrics capturing task-norm trade-offs and verifier uncertainty. Using LiveCultureBench across models and cultural profiles, we study (i) cross-cultural robustness of LLM agents, (ii) how they balance effectiveness against norm sensitivity, and (iii) when LLM-as-a-judge evaluation is reliable for automated benchmarking versus when human oversight is needed.

0 Citations
0 Influential
22.5 Altmetric
112.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!