SimGym: 이커머스 오프라인 A/B 테스팅을 위한 트래픽 기반 브라우저 에이전트
SimGym: Traffic-Grounded Browser Agents for Offline A/B Testing in E-Commerce
A/B 테스팅은 이커머스 UI 변경 사항을 평가하는 최고의 표준으로 남아 있지만, 트래픽을 분산시키고 통계적 유의성을 확보하기까지 몇 주가 걸리며 사용자 경험을 저해할 위험이 있습니다. 우리는 라이브 브라우저에서 작동하는 거대 언어 모델(LLM) 에이전트로 구동되는 트래픽 기반 가상 구매자를 사용하여 신속한 오프라인 A/B 테스팅을 수행하는 확장 가능한 시스템인 SimGym을 소개합니다. SimGym은 실제 상호작용 데이터에서 상점별 구매자 프로필과 의도를 추출하고, 뚜렷한 행동 유형을 식별하며, 대조군 및 실험군 스토어프론트 전반에 걸쳐 코호트 가중치가 적용된 세션을 시뮬레이션합니다. 우리는 교란 변수가 통제된 주요 이커머스 플랫폼의 실제 UI 변경에 따른 실제 사용자 결과를 바탕으로 SimGym을 검증했습니다. 사후 정렬 학습 없이도 SimGym 에이전트는 관찰된 결과 변화와 최첨단 수준의 일치도를 달성하며, 실험 주기를 몇 주에서 1시간 미만으로 단축하여 실제 구매자에게 노출되지 않고도 신속한 실험을 가능하게 합니다.
A/B testing remains the gold standard for evaluating e-commerce UI changes, yet it diverts traffic, takes weeks to reach significance, and risks harming user experience. We introduce SimGym, a scalable system for rapid offline A/B testing using traffic-grounded synthetic buyers powered by Large Language Model agents operating in a live browser. SimGym extracts per-shop buyer profiles and intents from production interaction data, identifies distinct behavioral archetypes, and simulates cohort-weighted sessions across control and treatment storefronts. We validate SimGym against real human outcomes from real UI changes on a major e-commerce platform under confounder control. Even without alignment post training, SimGym agents achieve state of the art alignment with observed outcome shifts and reduces experiment cycles from weeks to under an hour , enabling rapid experimentation without exposure to real buyers.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.