2604.05523v1 Apr 07, 2026 cs.AI

시장 벤치마크: 경제 및 무역 경쟁 환경에서 대규모 언어 모델 성능 평가

Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition

Xiongkuo Min
Xiongkuo Min
Citations: 12,054
h-index: 51
Huiyu Duan
Huiyu Duan
Citations: 2,121
h-index: 24
Yucheng Zhu
Yucheng Zhu
Citations: 48
h-index: 5
Zicheng Zhang
Zicheng Zhang
Citations: 4,424
h-index: 33
Yushuo Zheng
Yushuo Zheng
Citations: 70
h-index: 4
Guangtao Zhai Shanghai Jiao Tong University
Guangtao Zhai Shanghai Jiao Tong University
Citations: 0
h-index: 0
Shanghai Artificial Intelligence Laboratory
Shanghai Artificial Intelligence Laboratory
Citations: 0
h-index: 0

대규모 언어 모델(LLM)이 경제 자원을 관리하고 획득하는 능력은 아직 명확하지 않습니다. 본 논문에서는 LLM의 경제적 역량을 평가하기 위한 종합적인 벤치마크인 **Market-Bench**를 소개합니다. **Market-Bench**는 경제 및 무역 경쟁 환경을 통해 경제적으로 관련된 다양한 작업을 평가합니다. 구체적으로, 우리는 LLM이 소매업체 에이전트로서 상품을 조달하고 판매하는 역할을 수행하는, 설정 가능한 다중 에이전트 공급망 경제 모델을 구축했습니다. **조달 단계**에서, LLM은 예산 제약 하에 제한된 재고를 놓고 입찰 경쟁을 벌입니다. **소매 단계**에서, LLM은 소매 가격을 설정하고, 마케팅 슬로건을 생성하며, 역할을 기반으로 하는 주의 메커니즘을 통해 구매자에게 제공합니다. **Market-Bench**는 입찰, 가격, 슬로건, 판매, 그리고 재무 상태에 대한 모든 정보를 기록하며, 이를 통해 경제적, 운영적, 그리고 의미론적 지표를 사용하여 자동 평가를 수행할 수 있습니다. 20개의 공개 및 비공개 LLM 에이전트에 대한 벤치마킹 결과, 성능에 상당한 차이가 있으며, '승자 독식' 현상이 나타나는 것을 확인했습니다. 즉, LLM 소매업체 중 극히 일부만이 지속적으로 자본 가치를 증대시킬 수 있는 반면, 많은 모델들이 유사한 의미론적 일치 점수를 보이더라도 거의 손익분기점에 머무르는 경향이 있습니다. **Market-Bench**는 LLM이 경쟁 시장에서 어떻게 상호 작용하는지 연구할 수 있는 재현 가능한 테스트 환경을 제공합니다.

Original Abstract

The ability of large language models (LLMs) to manage and acquire economic resources remains unclear. In this paper, we introduce \textbf{Market-Bench}, a comprehensive benchmark that evaluates the capabilities of LLMs in economically-relevant tasks through economic and trade competition. Specifically, we construct a configurable multi-agent supply chain economic model where LLMs act as retailer agents responsible for procuring and retailing merchandise. In the \textbf{procurement} stage, LLMs bid for limited inventory in budget-constrained auctions. In the \textbf{retail} stage, LLMs set retail prices, generate marketing slogans, and provide them to buyers through a role-based attention mechanism for purchase. Market-Bench logs complete trajectories of bids, prices, slogans, sales, and balance-sheet states, enabling automatic evaluation with economic, operational, and semantic metrics. Benchmarking on 20 open- and closed-source LLM agents reveals significant performance disparities and winner-take-most phenomenon, \textit{i.e.}, only a small subset of LLM retailers can consistently achieve capital appreciation, while many hover around the break-even point despite similar semantic matching scores. Market-Bench provides a reproducible testbed for studying how LLMs interact in competitive markets.

0 Citations
0 Influential
25.5 Altmetric
127.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!