2601.18225v1 Jan 26, 2026 cs.AI

ShopSimulator: 쇼핑 어시스턴트를 위한 강화학습 기반 LLM 에이전트 평가 및 탐구

ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants

Pei Wang
Pei Wang
Citations: 74
h-index: 3
Yanan Wu
Yanan Wu
Citations: 127
h-index: 6
Weixun Wang
Weixun Wang
Citations: 345
h-index: 10
Gengru Chen
Gengru Chen
Citations: 85
h-index: 2
Ken Deng
Ken Deng
Citations: 110
h-index: 7
Shu-Man Zhao
Shu-Man Zhao
Citations: 67
h-index: 2
Shaopan Xiong
Shaopan Xiong
Citations: 132
h-index: 5
Xuepeng Liu
Xuepeng Liu
Citations: 38
h-index: 1
Wenbo Su
Wenbo Su
Citations: 932
h-index: 14
Bo Zheng
Bo Zheng
Citations: 113
h-index: 3
Xiaoshuai Song
Xiaoshuai Song
Renmin University of China
Citations: 383
h-index: 9
Ke Yan
Ke Yan
Citations: 30
h-index: 3
Wanxi Deng
Wanxi Deng
Citations: 61
h-index: 2
Zhongwen Li
Zhongwen Li
Citations: 16
h-index: 2
Qi Liu
Qi Liu
Citations: 529
h-index: 11
Xuefeng Chen
Xuefeng Chen
Citations: 8
h-index: 1

거대 언어 모델(LLM) 기반 에이전트가 이커머스 쇼핑 분야에 점차 도입되고 있습니다. 철저한 사용자 맞춤형 상품 검색을 수행하기 위해, 에이전트는 개인의 선호도를 해석하고, 멀티 턴 대화에 참여하며, 궁극적으로 매우 유사한 상품들 사이에서 적절한 상품을 검색하고 구별해 내야 합니다. 그러나 기존 연구는 이 모든 측면을 일관되게 포착하는 통합 시뮬레이션 환경을 아직 제공하지 못하고 있으며, 학습 지원 없이 오직 평가 벤치마크에만 집중하고 있습니다. 본 논문에서는 대규모의 도전적인 중국어 쇼핑 환경인 ShopSimulator를 소개합니다. ShopSimulator를 활용하여 다양한 시나리오에서 LLM을 평가한 결과, 최고 성능을 보이는 모델조차 40% 미만의 완전 성공률을 기록했습니다. 오류 분석 결과, 에이전트들은 긴 궤적 내에서의 심층 검색 및 상품 선택에 어려움을 겪고, 개인화 단서 활용의 균형을 맞추지 못하며, 사용자와 효과적으로 상호작용하는 데 실패하는 것으로 나타났습니다. 추가적인 학습 탐구는 이러한 약점을 극복하기 위한 실질적인 지침을 제공하며, 지도 미세 조정(SFT)과 강화학습(RL)의 결합이 상당한 성능 향상을 이끌어 냄을 확인했습니다. 코드와 데이터는 https://github.com/ShopAgent-Team/ShopSimulator 에서 공개될 예정입니다.

Original Abstract

Large language model (LLM)-based agents are increasingly deployed in e-commerce shopping. To perform thorough, user-tailored product searches, agents should interpret personal preferences, engage in multi-turn dialogues, and ultimately retrieve and discriminate among highly similar products. However, existing research has yet to provide a unified simulation environment that consistently captures all of these aspects, and always focuses solely on evaluation benchmarks without training support. In this paper, we introduce ShopSimulator, a large-scale and challenging Chinese shopping environment. Leveraging ShopSimulator, we evaluate LLMs across diverse scenarios, finding that even the best-performing models achieve less than 40% full-success rate. Error analysis reveals that agents struggle with deep search and product selection in long trajectories, fail to balance the use of personalization cues, and to effectively engage with users. Further training exploration provides practical guidance for overcoming these weaknesses, with the combination of supervised fine-tuning (SFT) and reinforcement learning (RL) yielding significant performance improvements. Code and data will be released at https://github.com/ShopAgent-Team/ShopSimulator.

2 Citations
0 Influential
37.986122886681 Altmetric
191.9 Score

AI Analysis

Korean Summary

이 논문은 실제 타오바오(Taobao) 제품 데이터를 기반으로 구축된 대규모 전자상거래 에이전트 시뮬레이션 환경인 'ShopSimulator'를 제안합니다. 이 환경은 기존 벤치마크의 한계를 넘어 다중 턴 대화, 사용자 개인화, 세밀한 상품 구별 능력을 통합적으로 평가할 수 있도록 설계되었습니다. 실험 결과, GPT-5를 포함한 최신 LLM들도 복잡한 쇼핑 시나리오에서 40% 미만의 낮은 성공률을 보였습니다. 연구진은 지도 미세 조정(SFT)으로 에이전트의 기본 동작을 학습시키고, 강화 학습(RL)으로 세부 요구사항 충족 능력을 최적화하는 'SFT+RL' 전략이 성능을 크게 향상시킨다는 것을 입증했습니다. 또한, 모든 제약 조건을 만족해야 보상을 주는 '엄격한 보상(Strict Reward)' 방식이 에이전트의 정밀도를 높이는 데 효과적임을 확인했습니다.

Key Innovations

  • 다중 턴 대화, 개인화, 세밀한 상품 구별을 모두 지원하는 통합 쇼핑 시뮬레이션 환경(ShopSimulator) 구축
  • 12개 도메인, 130만 개 이상의 실제 제품 데이터를 활용한 대규모 데이터셋(Catalog-Full/Fine)
  • LLM 기반의 사용자(Shopper) 시뮬레이터를 도입하여 현실적인 상호작용 및 의도 명확화 과정 재현
  • SFT(지도 미세 조정)와 RL(강화 학습)의 상호보완적 효과를 입증하고 최적의 훈련 파이프라인 제시
  • 속성 및 옵션 매칭 정확도를 높이기 위한 곱셈 기반의 '엄격한 보상(Strict Reward)' 메커니즘 제안

Learning & Inference Impact

학습 과정에서 SFT는 에이전트에게 쇼핑 작업의 전반적인 절차와 워크플로우를 주입하는 '콜드 스타트' 역할을 수행하며, 이후 이어지는 RL은 사용자의 세밀한 선호도와 제품 속성을 정확히 매칭하는 능력을 최적화하는 데 기여합니다. 특히 RL 단계에서 부분 점수를 허용하는 합산형 보상(Loose Reward)보다 모든 조건이 충족되어야 높은 점수를 주는 곱셈형 보상(Strict Reward)을 사용할 때, 모델이 병목이 되는 취약점을 집중적으로 개선하여 최종 성능이 극대화됩니다. 추론 단계에서는 에이전트가 단순히 검색 결과에 의존하는 것을 넘어, 사용자의 모호한 의도를 파악하기 위해 적극적으로 질문하고 개인화된 프로필 정보를 적절히 활용(과소/과대 해석 방지)하는 능력의 중요성을 부각시켰습니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!