ProductResearch: 다중 에이전트 기반 합성 경로 증류를 통한 전자상거래 심층 연구 에이전트 훈련
ProductResearch: Training E-Commerce Deep Research Agents via Multi-Agent Synthetic Trajectory Distillation
대규모 언어 모델(LLM) 기반 에이전트는 전자상거래 대화형 쇼핑에 잠재력을 보여주지만, 기존 구현 방식은 복잡한 제품 연구에 필요한 상호 작용의 깊이와 맥락적 폭이 부족합니다. 한편, 웹 검색에서 정보 통합을 발전시킨 심층 연구 패러다임은 전자상거래로 전이될 때 도메인 격차 문제를 겪습니다. 본 연구에서는 ProductResearch라는 다중 에이전트 프레임워크를 제안합니다. 이 프레임워크는 견고한 전자상거래 쇼핑 에이전트 훈련을 위한 고품질의 장기적인 도구 사용 경로를 합성합니다. 사용자 에이전트는 행동 기록으로부터 미묘한 쇼핑 의도를 추론하고, 감독 에이전트는 연구 에이전트와의 반복적인 협력을 통해 종합적이고 통찰력 있는 제품 연구 보고서로 이어지는 합성 경로를 생성합니다. 이러한 경로는 엄격하게 필터링되고 증류되어, 다중 에이전트 감독 상호 작용을 일관된 단일 역할 훈련 예제로 통합하는 반사적 내면화 과정을 거칩니다. 이를 통해 LLM 에이전트를 복잡한 쇼핑 문의에 효과적으로 미세 조정할 수 있습니다. 광범위한 실험 결과, 합성 데이터로 미세 조정된 소형 MoE 모델이 기본 모델에 비해 응답의 포괄성, 연구의 깊이, 사용자가 인지하는 유용성 측면에서 상당한 개선을 보이며, 최첨단 독점 심층 연구 시스템의 성능에 근접하는 것을 확인했습니다. 또한, 다중 에이전트 기반 합성 경로 훈련은 LLM 기반 쇼핑 지원을 향상시키는 효과적이고 확장 가능한 패러다임임을 입증했습니다.
Large Language Model (LLM)-based agents show promise for e-commerce conversational shopping, yet existing implementations lack the interaction depth and contextual breadth required for complex product research. Meanwhile, the Deep Research paradigm, despite advancing information synthesis in web search, suffers from domain gaps when transferred to e-commerce. We propose ProductResearch, a multi-agent framework that synthesizes high-fidelity, long-horizon tool-use trajectories for training robust e-commerce shopping agents. The framework employs a User Agent to infer nuanced shopping intents from behavioral histories, and a Supervisor Agent that orchestrates iterative collaboration with a Research Agent to generate synthetic trajectories culminating in comprehensive, insightful product research reports. These trajectories are rigorously filtered and distilled through a reflective internalization process that consolidates multi-agent supervisory interactions into coherent single-role training examples, enabling effective fine-tuning of LLM agents for complex shopping inquiries. Extensive experiments show that a compact MoE model fine-tuned on our synthetic data achieves substantial improvements over its base model in response comprehensiveness, research depth, and user-perceived utility, approaching the performance of frontier proprietary deep research systems and establishing multi-agent synthetic trajectory training as an effective and scalable paradigm for enhancing LLM-based shopping assistance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.