2601.08462v1 Jan 13, 2026 cs.AI

M3-BENCH: 혼합 동기 게임 내 LLM 에이전트의 사회적 행동에 대한 과정 인식 평가

M3-BENCH: Process-Aware Evaluation of LLM Agents Social Behaviors in Mixed-Motive Games

Sixiong Xie
Sixiong Xie
Citations: 4
h-index: 1
Zhuofan Shi
Zhuofan Shi
Citations: 63
h-index: 4
Haiyang Shen
Haiyang Shen
Citations: 10
h-index: 2
Gang Huang
Gang Huang
Citations: 36
h-index: 3
Xiang Jing
Xiang Jing
Citations: 10
h-index: 2
Yuntao Ma
Yuntao Ma
Citations: 43
h-index: 3

거대언어모델(LLM) 에이전트의 능력이 지속적으로 발전함에 따라, 협력, 기만, 공모와 같은 고도화된 사회적 행동에 대한 체계적인 평가가 요구되고 있다. 그러나 기존 벤치마크들은 종종 단일 능력 차원만을 강조하거나 행동 결과에만 의존하여, 에이전트의 의사결정 추론 및 의사소통 상호작용에서 비롯되는 풍부한 과정 정보를 간과하고 있다. 이러한 한계를 극복하기 위해, 우리는 혼합 동기 게임을 위한 다단계 벤치마크인 M3-Bench와 함께, BTA(행동 궤적 분석), RPA(추론 과정 분석), CCA(의사소통 내용 분석)의 세 가지 모듈에 걸쳐 시너지 효과를 내는 분석을 수행하는 과정 인식 평가 프레임워크를 제안한다. 더 나아가, 우리는 Big Five 성격 모델과 사회 교환 이론을 통합하여 다차원적인 증거를 해석 가능한 사회적 행동 초상(portrait)으로 종합함으로써, 단순한 과제 점수나 결과 기반 지표를 넘어 에이전트의 성격 특성과 능력 프로필을 규명한다. 실험 결과에 따르면, M3-Bench는 모델 간의 다양한 사회적 행동 역량을 신뢰성 있게 구별할 수 있으며, 일부 모델은 겉보기에 합리적인 행동 결과를 도출하면서도 추론 및 의사소통 과정에서 뚜렷한 불일치를 보인다는 사실을 밝혀냈다.

Original Abstract

As the capabilities of large language model (LLM) agents continue to advance, their advanced social behaviors, such as cooperation, deception, and collusion, call for systematic evaluation. However, existing benchmarks often emphasize a single capability dimension or rely solely on behavioral outcomes, overlooking rich process information from agents' decision reasoning and communicative interactions. To address this gap, we propose M3-Bench, a multi-stage benchmark for mixed-motive games, together with a process-aware evaluation framework that conducts synergistic analysis across three modules: BTA (Behavioral Trajectory Analysis), RPA (Reasoning Process Analysis), and CCA (Communication Content Analysis). Furthermore, we integrate the Big Five personality model and Social Exchange Theory to aggregate multi-dimensional evidence into interpretable social behavior portraits, thereby characterizing agents' personality traits and capability profiles beyond simple task scores or outcome-based metrics. Experimental results show that M3-Bench can reliably distinguish diverse social behavior competencies across models, and it reveals that some models achieve seemingly reasonable behavioral outcomes while exhibiting pronounced inconsistencies in their reasoning and communication.

5 Citations
0 Influential
2 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!