Valley3: 전자상거래를 위한 확장 가능한 통합 기반 모델
Valley3: Scaling Omni Foundation Models for E-commerce
본 연구에서는 다양한 글로벌 전자상거래 작업을 위해 개발된 통합 다중 모드 대규모 언어 모델(MLLM)인 Valley3을 소개합니다. Valley3은 텍스트, 이미지, 비디오, 오디오를 포괄하는 통일된 이해 및 추론 능력을 갖추고 있습니다. Valley3의 주요 특징은 전자상거래를 위한 고유한 다국어 오디오 기능을 제공하며, 이는 시각-언어 모델을 확장하여 중요한 오디오-비주얼 작업을 더욱 효과적으로 지원하도록 개발되었습니다. 이를 달성하기 위해, Valley3은 오디오 이해, 교차 모드 명령어 준수, 전자상거래 도메인 지식 및 장기 컨텍스트 추론 능력을 점진적으로 습득하는 4단계의 통합 전자상거래 지속 사전 훈련 파이프라인을 거칩니다. 그 결과, Valley3은 다양한 전자상거래 시나리오에 적합한 통합 모델로 발전합니다. 또한, Valley3은 추가 훈련을 통해 제어 가능한 추론 모드를 갖춘 장기적인 추론 능력을 향상시켜, 단순한 시나리오에서는 효율적인 추론을 제공하고, 복잡한 애플리케이션에서는 심층적인 추론을 가능하게 합니다. 더불어, Valley3은 에이전트 기반 검색 기능을 통해 전자상거래 심층 연구 작업에 필요한 관련 정보를 능동적으로 검색하고 활용할 수 있도록 설계되었습니다. Valley3의 기능을 종합적으로 평가하기 위해, 6가지 작업으로 구성된 통합 전자상거래 벤치마크를 구축했습니다. 실험 결과는 Valley3이 자체 개발 및 오픈 소스 전자상거래 벤치마크에서 강력한 기준 모델보다 일관되게 뛰어난 성능을 보이며, 일반 도메인 벤치마크에서도 경쟁력 있는 성능을 유지한다는 것을 보여줍니다.
In this work, we present Valley3, an omni multimodal large language model (MLLM) developed for diverse global e-commerce tasks, with unified understanding and reasoning capabilities across text, images, video, and audio. A key feature of Valley3 is its native multilingual audio capability for e-commerce, developed by extending vision-language models to better support crucial audio-visual tasks, particularly in short-video scenarios. To achieve this, we carefully design a four-stage omni e-commerce continued pre-training pipeline, through which Valley3 progressively acquires audio understanding, cross-modal instruction-following, e-commerce domain knowledge, and long-context reasoning capabilities, ultimately evolving into an omni model for diverse e-commerce scenarios. Then, we further improve Valley3 through post-training to encourage long-chain reasoning with controllable reasoning modes, enabling one non-thinking mode and three distinct levels of thinking, thereby balancing inference efficiency in simple scenarios with deep reasoning for complex applications. Moreover, we equip Valley3 with agentic search capabilities to proactively invoke search tools and acquire task-relevant information for e-commerce deep research tasks. To comprehensively assess the capabilities of Valley3, we construct an omni e-commerce benchmark spanning 6 tasks. Experimental results show that Valley3 consistently outperforms strong baselines on our in-house and open-source e-commerce benchmarks, while remaining competitive on general-domain benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.