LiveCultureBench: 대규모 언어 모델의 동적 사회 시뮬레이션을 위한 다중 에이전트, 다문화 벤치마크
LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations
대규모 언어 모델(LLM)은 자율 에이전트로 점점 더 많이 사용되고 있지만, 평가의 초점은 주로 작업 성공 여부에 있으며, 문화적 적절성이나 평가자 신뢰성은 고려되지 않는 경우가 많습니다. 본 논문에서는 LiveCultureBench를 소개합니다. LiveCultureBench는 LLM을 시뮬레이션된 마을의 에이전트로 배치하고, 작업 완료 여부와 사회-문화적 규범 준수 여부를 모두 평가하는 다문화, 동적 벤치마크입니다. 이 시뮬레이션은 다양한 인구 통계 및 문화적 배경을 가진 가상 거주자들이 있는 작은 도시를 위치 그래프로 모델링합니다. 각 에피소드에서 한 명의 거주자에게 일일 목표가 할당되고, 다른 거주자들은 사회적 맥락을 제공합니다. LLM 기반 검증기는 규범 위반 및 작업 진행 상황에 대한 구조화된 판단을 생성하며, 이를 사용하여 작업-규범 균형 및 검증자 불확실성을 나타내는 지표를 산출합니다. LiveCultureBench를 사용하여 다양한 모델과 문화적 배경에서 (i) LLM 에이전트의 문화 간 견고성, (ii) LLM 에이전트가 효과성과 규범 민감성 간의 균형을 어떻게 맞추는지, (iii) LLM을 평가자로 사용하는 평가가 자동화된 벤치마킹에 얼마나 신뢰할 수 있는지, 그리고 언제 인간의 감독이 필요한지를 연구합니다.
Large language models (LLMs) are increasingly deployed as autonomous agents, yet evaluations focus primarily on task success rather than cultural appropriateness or evaluator reliability. We introduce LiveCultureBench, a multi-cultural, dynamic benchmark that embeds LLMs as agents in a simulated town and evaluates them on both task completion and adherence to socio-cultural norms. The simulation models a small city as a location graph with synthetic residents having diverse demographic and cultural profiles. Each episode assigns one resident a daily goal while others provide social context. An LLM-based verifier generates structured judgments on norm violations and task progress, which we aggregate into metrics capturing task-norm trade-offs and verifier uncertainty. Using LiveCultureBench across models and cultural profiles, we study (i) cross-cultural robustness of LLM agents, (ii) how they balance effectiveness against norm sensitivity, and (iii) when LLM-as-a-judge evaluation is reliable for automated benchmarking versus when human oversight is needed.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.