PieArena: 최첨단 언어 에이전트가 MBA 수준의 협상 능력을 달성하고 새로운 행동 차이를 드러냄
PieArena: Frontier Language Agents Achieve MBA-Level Negotiation Performance and Reveal Novel Behavioral Differences
본 연구는 LLM(Large Language Models, 거대 언어 모델)의 협상 능력에 대한 심층적인 평가를 제시합니다. 협상은 전략적 사고, 타인에 대한 이해, 경제적 가치 창출을 요구하는 핵심적인 비즈니스 업무입니다. 이를 위해, 저희는 PieArena를 소개합니다. PieArena는 고급 경영대학원의 MBA 협상 과정에서 채택된 현실적인 시나리오를 기반으로 한 대규모 협상 벤치마크입니다. 저희는 연속적인 협상 결과에 대한 통계적으로 타당한 랭킹 모델을 개발했으며, 이를 통해 신뢰 구간이 명확하게 제시된 리더보드를 생성하고, 실험상의 불균형을 보정합니다. 연구 결과, 대표적인 최첨단 언어 에이전트(GPT-5)는 일반적인 협상 교육 및 과제 수행 직전의 집중 코칭을 받은 경영대학원 학생들과 동등하거나 더 뛰어난 성능을 보이는, 즉 인간 전문가 수준의 성능을 보이는 것으로 나타났습니다. 또한, 공동 의도를 가진 에이전트 지원(agentic scaffolding)의 효과를 분석한 결과, 중간 및 하위 티어 LLM의 경우 큰 개선 효과를 보였지만, 최첨단 LLM의 경우 개선 효과가 감소하는 것으로 나타났습니다. PieArena는 거래 결과 외에도 협상 행동의 다차원적인 프로필을 제공하며, 기존의 거래 결과만을 기준으로 하는 벤치마크에서는 가려졌던 모델 간의 새로운 다양성을 드러냅니다. 이러한 다양성은 기만, 계산 정확성, 지시 준수, 그리고 인식된 평판과 관련된 측면에서 나타납니다. 전반적으로, 본 연구 결과는 최첨단 언어 에이전트가 이미 고위험 경제 환경에 투입될 수 있을 만큼 지적 및 심리적으로 충분한 능력을 갖추고 있음을 시사하지만, 견고성 및 신뢰성에 대한 개선은 여전히 해결해야 할 과제임을 보여줍니다.
We present an in-depth evaluation of LLMs' ability to negotiate, a central business task that requires strategic reasoning, theory of mind, and economic value creation. To do so, we introduce PieArena, a large-scale negotiation benchmark grounded in multi-agent interactions over realistic scenarios drawn from an MBA negotiation course at an elite business school. We develop a statistically grounded ranking model for continuous negotiation payoffs that produces leaderboards with principled confidence intervals and corrects for experimental asymmetries. We find systematic evidence of human-expert-level performance in which a representative frontier language agent (GPT-5) matches or outperforms trained business-school students, despite a semester of general negotiation instruction and targeted coaching immediately prior to the task. We further study the effects of joint-intentionality agentic scaffolding and observe asymmetric gains, with large improvements for mid- and lower-tier LMs and diminishing returns for frontier LMs. Beyond deal outcomes, PieArena provides a multi-dimensional negotiation behavioral profile, revealing novel cross-model heterogeneity, masked by deal-outcome-only benchmarks, in deception, computation accuracy, instruction compliance, and perceived reputation. Overall, our results suggest that frontier language agents are already intellectually and psychologically capable of deployment in high-stakes economic settings, but deficiencies in robustness and trustworthiness remain open challenges.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.