시맨틱 클러스터 ID 및 전문가 기반 강화 학습을 활용한 전자 상거래 검색을 위한 효율적인 생성형 검색
Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL
생성형 검색은 복잡한 다단계 검색 과정을 단일의 통합된 모델로 구현하여 유망한 대안을 제시합니다. 그러나 방대한 규모의 동적 상품 카탈로그, 엄격한 지연 시간 요구 사항, 그리고 검색 결과를 후속 순위 결정 목표와 일치시켜야 하는 과제들로 인해, 산업 현장에서의 실제 전자 상거래 검색 시스템에 생성형 검색을 적용하는 것은 여전히 어렵습니다. 본 연구에서는 실제 검색 환경에 적합한 검색 프레임워크를 제안하며, 생성형 검색을 전체 검색 시스템의 대체재가 아닌, 초기 검색 단계의 보완 수단으로 활용합니다. 제안하는 방법인 CQ-SID (Category-and-Query constrained Semantic ID)는 카테고리 정보를 활용한 대조 학습과 잔차 양자화 변분 오토인코더(VAE)를 사용하여 상품을 계층적 시맨틱 클러스터 식별자로 인코딩함으로써, 탐색(beam search)의 복잡성을 크게 줄입니다. 또한, EG-GRPO (Expert-Guided Group Relative Policy Optimization)라는 전문가 기반 강화 학습 방법을 개발하여, 희소한 보상 환경에서 생성형 검색 결과를 후속 순위 결정과 일치시키기 위해, 실제 샘플을 주입하여 학습을 안정화합니다. TmallAPP 검색 로그를 사용한 오프라인 실험 결과, CQ-SID는 RQ-VAE 기반 모델 대비 시맨틱 및 개인화된 클릭률에서 각각 26.76% 및 11.11%의 성능 향상을 보였으며, 탐색 크기를 절반으로 줄였습니다. EG-GRPO는 다중 목표 성능을 더욱 향상시킵니다. 온라인 A/B 테스트 결과, GMV (+1.15%) 및 UCTCVR (+0.40%) 모두에서 성능 향상이 확인되었습니다. 현재 생성형 검색 채널은 실제 전자 상거래 시스템에서 중요한 역할을 수행하며, 전체 노출의 50.25%, 클릭의 58.96%, 구매의 72.63%를 차지하며, 생성형 검색을 실제 시스템에 적용하기 위한 실현 가능한 경로를 보여줍니다.
Generative retrieval offers a promising alternative by unifying the fragmented multi-stage retrieval process into a single end-to-end model. However, its practical adoption in industrial e-commerce search remains challenging, given the massive and dynamic product catalogs, strict latency requirements, and the need to align retrieval with downstream ranking goals. In this work, we propose a retrieval framework tailored for real-world recall scenarios, positioning generative retrieval as a recall-stage supplement rather than an end-to-end replacement. Our method, CQ-SID (Category-and-Query constrained Semantic ID), employs category-aware and query-item contrastive learning along with Residual Quantized VAEs to encode items into hierarchical semantic cluster identifiers, significantly reducing beam search complexity. Additionally, we develop EG-GRPO (Expert-Guided Group Relative Policy Optimization), a reinforcement learning approach that aligns generative recall with downstream ranking under sparse rewards by injecting ground-truth samples to stabilize training. Offline experiments on TmallAPP search logs show that CQ-SID achieves up to 26.76% and 11.11% relative gains in semantic and personalized click hitrate over RQ-VAE baselines, while halving beam search size. EG-GRPO further improves multi-objective performance. Online A/B tests confirm gains in GMV (+1.15%) and UCTCVR (+0.40%). The generative recall channel now contributes substantially in production, accounting for over 50.25% of exposures, 58.96% of clicks, and 72.63% of purchases, demonstrating a viable path for deploying generative retrieval in real-world e-commerce systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.