PieArena: 최첨단 언어 에이전트, MBA 수준의 협상 성과 달성 및 새로운 행동 차이 규명
PieArena: Frontier Language Agents Achieve MBA-Level Negotiation Performance and Reveal Novel Behavioral Differences
우리는 전략적 추론, 마음 이론, 경제적 가치 창출을 요하는 핵심 비즈니스 업무인 협상에 대하여 LLM의 능력을 심층 평가한다. 이를 위해 명문 경영대학원의 MBA 협상 과정에서 도출된 실제 시나리오에 기반하여 다중 에이전트 상호작용을 다루는 대규모 협상 벤치마크인 PieArena를 소개한다. 연구 결과, 대표적인 최첨단 에이전트(GPT-5)가 한 학기 동안의 협상 교육과 과제 직전 코칭을 받은 경영대 학생들과 대등하거나 능가하는 AGI 수준의 성과를 보인다는 체계적 증거를 발견했다. 또한 공동 지향성(joint-intentionality) 에이전트 스캐폴딩의 효과를 분석하여, 중하위권 모델은 크게 개선된 반면 최첨단 모델은 효과가 체감하는 비대칭적 이득을 확인했다. 거래 성과 외에도 PieArena는 다차원적인 협상 행동 프로필을 제공함으로써, 기존의 성과 중심 벤치마크에서는 드러나지 않았던 기만, 계산 정확도, 지시 준수, 평판 인식 등에 있어서 모델 간의 새로운 이질성을 밝혀낸다. 결론적으로, 최첨단 언어 에이전트가 중대한 경제적 환경에 투입될 수 있는 지적·심리적 역량을 이미 갖추었음을 시사하지만, 견고성과 신뢰성 부족은 여전히 해결해야 할 과제임을 보여준다.
We present an in-depth evaluation of LLMs' ability to negotiate, a central business task that requires strategic reasoning, theory of mind, and economic value creation. To do so, we introduce PieArena, a large-scale negotiation benchmark grounded in multi-agent interactions over realistic scenarios drawn from an MBA negotiation course at an elite business school. We find systematic evidence of AGI-level performance in which a representative frontier agent (GPT-5) matches or outperforms trained business-school students, despite a semester of general negotiation instruction and targeted coaching immediately prior to the task. We further study the effects of joint-intentionality agentic scaffolding and find asymmetric gains, with large improvements for mid- and lower-tier LMs and diminishing returns for frontier LMs. Beyond deal outcomes, PieArena provides a multi-dimensional negotiation behavioral profile, revealing novel cross-model heterogeneity, masked by deal-outcome-only benchmarks, in deception, computation accuracy, instruction compliance, and perceived reputation. Overall, our results suggest that frontier language agents are already intellectually and psychologically capable of deployment in high-stakes economic settings, but deficiencies in robustness and trustworthiness remain open challenges.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.