시장 벤치마크: 경제 및 무역 경쟁 환경에서 대규모 언어 모델 성능 평가
Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition
대규모 언어 모델(LLM)이 경제 자원을 관리하고 획득하는 능력은 아직 명확하지 않습니다. 본 논문에서는 LLM의 경제적 역량을 평가하기 위한 종합적인 벤치마크인 **Market-Bench**를 소개합니다. **Market-Bench**는 경제 및 무역 경쟁 환경을 통해 경제적으로 관련된 다양한 작업을 평가합니다. 구체적으로, 우리는 LLM이 소매업체 에이전트로서 상품을 조달하고 판매하는 역할을 수행하는, 설정 가능한 다중 에이전트 공급망 경제 모델을 구축했습니다. **조달 단계**에서, LLM은 예산 제약 하에 제한된 재고를 놓고 입찰 경쟁을 벌입니다. **소매 단계**에서, LLM은 소매 가격을 설정하고, 마케팅 슬로건을 생성하며, 역할을 기반으로 하는 주의 메커니즘을 통해 구매자에게 제공합니다. **Market-Bench**는 입찰, 가격, 슬로건, 판매, 그리고 재무 상태에 대한 모든 정보를 기록하며, 이를 통해 경제적, 운영적, 그리고 의미론적 지표를 사용하여 자동 평가를 수행할 수 있습니다. 20개의 공개 및 비공개 LLM 에이전트에 대한 벤치마킹 결과, 성능에 상당한 차이가 있으며, '승자 독식' 현상이 나타나는 것을 확인했습니다. 즉, LLM 소매업체 중 극히 일부만이 지속적으로 자본 가치를 증대시킬 수 있는 반면, 많은 모델들이 유사한 의미론적 일치 점수를 보이더라도 거의 손익분기점에 머무르는 경향이 있습니다. **Market-Bench**는 LLM이 경쟁 시장에서 어떻게 상호 작용하는지 연구할 수 있는 재현 가능한 테스트 환경을 제공합니다.
The ability of large language models (LLMs) to manage and acquire economic resources remains unclear. In this paper, we introduce \textbf{Market-Bench}, a comprehensive benchmark that evaluates the capabilities of LLMs in economically-relevant tasks through economic and trade competition. Specifically, we construct a configurable multi-agent supply chain economic model where LLMs act as retailer agents responsible for procuring and retailing merchandise. In the \textbf{procurement} stage, LLMs bid for limited inventory in budget-constrained auctions. In the \textbf{retail} stage, LLMs set retail prices, generate marketing slogans, and provide them to buyers through a role-based attention mechanism for purchase. Market-Bench logs complete trajectories of bids, prices, slogans, sales, and balance-sheet states, enabling automatic evaluation with economic, operational, and semantic metrics. Benchmarking on 20 open- and closed-source LLM agents reveals significant performance disparities and winner-take-most phenomenon, \textit{i.e.}, only a small subset of LLM retailers can consistently achieve capital appreciation, while many hover around the break-even point despite similar semantic matching scores. Market-Bench provides a reproducible testbed for studying how LLMs interact in competitive markets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.