넓게 생각하고 빠르게 행동하기: 다각적 체인 오브 씽킹(Chain-of-Thought)을 활용한 잠재적 추론 증류를 통한 전자상거래 검색 관련성 향상
Thinking Broad, Acting Fast: Latent Reasoning Distillation from Multi-Perspective Chain-of-Thought for E-Commerce Relevance
전자상거래 검색에서 효과적인 관련성 모델링은 검색 결과를 사용자의 의도에 맞추고 고객 경험을 향상시키는 데 매우 중요합니다. 최근 연구에서는 기존 관련성 모델의 한계를 극복하기 위해, 특히 롱테일 및 모호한 검색어에 대해 대규모 언어 모델(LLM)을 활용하고 있습니다. 체인 오브 씽킹(CoT) 추론을 통해 이러한 접근 방식은 다단계 추론을 통해 정확도와 해석 가능성을 모두 향상시킵니다. 그러나 다음과 같은 두 가지 주요 제한 사항이 남아 있습니다. (1) 대부분의 기존 접근 방식은 단일 관점의 CoT 추론에 의존하며, 이는 전자상거래 관련성의 다면적인 특성을 포착하는 데 실패합니다(예: 사용자 의도 대 속성 수준 매칭 대 비즈니스별 규칙). (2) CoT를 활용한 LLM은 풍부한 추론 능력을 제공하지만, 높은 추론 지연 시간으로 인해 실시간 배포를 위해서는 지식 증류가 필요합니다. 그러나 현재의 증류 방법은 추론 시 CoT의 근거 구조를 버리고 일시적인 보조 신호로 사용하여 추론 유용성을 잃게 됩니다. 이러한 과제를 해결하기 위해, 우리는 최적화 파이프라인 전체에서 CoT 의미를 더 잘 활용하는 새로운 프레임워크를 제안합니다. 구체적으로, 교사 모델은 다양한 근거를 생성하기 위해 다각적 CoT(MPCoT)를 활용하고, 지도 미세 조정(SFT)과 직접 선호도 최적화(DPO)를 결합하여 보다 강력한 추론기를 구축합니다. 증류를 위해, 우리는 잠재적 추론 지식 증류(LRKD)를 도입하여 학생 모델에 경량의 추론 시간 잠재적 추론 추출기를 부여합니다. 이를 통해 LLM의 정교한 추론 능력을 효율적이고 낮은 지연 시간으로 내부화할 수 있습니다. 당사의 방법은 전자상거래 검색 광고 플랫폼에서 오프라인 실험과 온라인 A/B 테스트를 통해 평가되었으며, 상당한 오프라인 성능 향상을 보여주었으며, 상업적 성과와 사용자 경험 모두에서 명확한 이점을 제공합니다.
Effective relevance modeling is crucial for e-commerce search, as it aligns search results with user intent and enhances customer experience. Recent work has leveraged large language models (LLMs) to address the limitations of traditional relevance models, especially for long-tail and ambiguous queries. By incorporating Chain-of-Thought (CoT) reasoning, these approaches improve both accuracy and interpretability through multi-step reasoning. However, two key limitations remain: (1) most existing approaches rely on single-perspective CoT reasoning, which fails to capture the multifaceted nature of e-commerce relevance (e.g., user intent vs. attribute-level matching vs. business-specific rules); and (2) although CoT-enhanced LLM's offer rich reasoning capabilities, their high inference latency necessitates knowledge distillation for real-time deployment, yet current distillation methods discard the CoT rationale structure at inference, using it as a transient auxiliary signal and forfeiting its reasoning utility. To address these challenges, we propose a novel framework that better exploits CoT semantics throughout the optimization pipeline. Specifically, the teacher model leverages Multi-Perspective CoT (MPCoT) to generate diverse rationales and combines Supervised Fine-Tuning (SFT) with Direct Preference Optimization (DPO) to construct a more robust reasoner. For distillation, we introduce Latent Reasoning Knowledge Distillation (LRKD), which endows a student model with a lightweight inference-time latent reasoning extractor, allowing efficient and low-latency internalization of the LLM's sophisticated reasoning capabilities. Evaluated in offline experiments and online A/B tests on an e-commerce search advertising platform serving tens of millions of users daily, our method delivers significant offline gains, showing clear benefits in both commercial performance and user experience.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.