SimPersona: 원시 클릭 스트림 데이터로부터 학습된 개별 구매자 페르소나를 활용한 실용적인 전자상거래 에이전트
SimPersona: Learning Discrete Buyer Personas from Raw Clickstreams for Grounded E-Commerce Agents
LLM 기반 웹 에이전트는 실제 쇼핑몰을 탐색할 수 있지만, 종종 단일의 '평균 구매자' 정책으로 작동하여 실제 구매자 집단의 다양성과 분포를 제대로 반영하지 못합니다. 기존의 개인화 방법은 수동으로 제작된 프롬프트 기반 페르소나에 의존하는데, 이는 취약하고 확장하기 어렵고, 문맥 효율성이 떨어지며, 인구 수준의 행동을 충실하게 반영하지 못합니다. 본 논문에서는 SimPersona라는 새로운 프레임워크를 소개합니다. SimPersona는 과거 트래픽 데이터로부터 개별 구매자 유형을 학습하고, 이를 LLM 기반 웹 에이전트에 간결한 페르소나 토큰으로 제공합니다. 원시 클릭 스트림 데이터를 기반으로, 행동을 고려한 VQ-VAE는 실제 구매자 행동의 통계적 구조와 판매자별 구매자 집단 분포를 반영하는 개별 구매자 유형 공간을 생성합니다. SimPersona는 LLM 기반 웹 에이전트에 행동별 지침을 제공하기 위해, 학습된 각 구매자 유형을 LLM 에이전트 어휘의 특정 페르소나 토큰에 매핑하고, 실제 브라우징 기록을 사용하여 에이전트를 미세 조정합니다. 추론 단계에서, 각 가상 구매자는 단일 인코더 패스 과정을 통해 학습된 구매자 유형에 할당되며, 재학습이나 스토어별 프롬프트 엔지니어링이 필요하지 않습니다. 인구 수준의 시뮬레이션을 위해, SimPersona는 각 판매자의 경험적 분포에 따라 학습된 VQ-VAE 코드북에서 구매자 유형을 샘플링하고, 해당 페르소나 토큰으로 에이전트를 생성하여 판매자별 구매자 집단 분포를 유지합니다. 42개의 실제 쇼핑몰에서 837만 명의 구매자 데이터를 사용하여 평가한 결과, SimPersona는 실제 구매자와 78%의 전환율 일치도를 달성했으며, 구매자 유형 간에 해석 가능한 행동적 다양성을 보여주었으며, 목표 지향적인 쇼핑 작업에서 8배 더 많은 파라미터를 가진 기준 모델보다 뛰어난 성능을 보였습니다. 또한, 원시 전자상거래 이벤트 로그를 구매자 표현 및 에이전트 훈련 데이터로 변환하는 오픈 소스 데이터 파이프라인을 공개합니다.
LLM-based web agents can navigate live storefronts, yet they often collapse to a single "average buyer" policy, failing to capture the heterogeneous and distributional nature of real buyer populations. Existing personalization methods rely on hand-crafted prompt-based personas that are brittle, difficult to scale, context-inefficient, and unable to faithfully represent population-level behavior. We introduce SimPersona, a novel framework that learns discrete buyer types from historical traffic and exposes them to LLM-based web agents as compact persona tokens. Given raw clickstreams, a behavior-aware VQ-VAE induces a discrete buyer-type space that captures the statistical structure of real buyer behavior and merchant-specific buyer population distributions. To provide behavior-specific guidance to LLM-based web agents, SimPersona maps each learned buyer type to a dedicated persona token in the LLM agent vocabulary and fine-tunes the agent with these tokens on real browsing traces. At inference, each synthetic buyer is assigned to a learned buyer type with a single encoder forward pass, requiring no retraining or store-specific prompt engineering. For population-level simulation, SimPersona samples buyer types from each merchant's empirical distribution over the learned VQ-VAE codebook and instantiates agents with the corresponding persona tokens, preserving merchant-specific buyer population distributions. Evaluated on $8.37$M buyers across $42$ held-out live storefronts, SimPersona achieves $78\%$ conversion-rate alignment with real buyers, exhibits interpretable behavioral variation across buyer types, and outperforms a baseline with $8\times$ more parameters on goal-oriented shopping tasks. We further release an open-source data pipeline that converts raw e-commerce event logs into buyer representations and agent-training traces.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.