Yuan3.0 Flash: 기업용 애플리케이션을 위한 오픈 멀티모달 대규모 언어 모델
Yuan3.0 Flash: An Open Multimodal Large Language Model for Enterprise Applications
우리는 37억 개의 활성 파라미터와 400억 개의 전체 파라미터를 갖춘 오픈 소스 전문가 혼합(MoE) 멀티모달 대규모 언어 모델인 Yuan3.0 Flash를 소개합니다. 이 모델은 범용 작업에 대한 경쟁력 있는 역량을 유지하면서 기업 중심 작업의 성능을 향상시키기 위해 특별히 설계되었습니다. 대규모 추론 모델(LRM)에서 흔히 관찰되는 과잉 사고(overthinking) 현상을 해결하기 위해, 우리는 과잉 사고 행동을 효과적으로 조절하는 새로운 강화 학습 훈련 알고리즘인 RAPO(Reflection-aware Adaptive Policy Optimization)를 제안합니다. 검색 증강 생성(RAG), 복잡한 표 이해, 요약과 같은 기업 중심 작업에서 Yuan3.0 Flash는 일관되게 우수한 성능을 달성합니다. 또한 수학, 과학 등의 분야에서도 강력한 추론 능력을 보여주며, 평균 토큰 사용량을 약 1/4에서 1/2로 줄이면서도 프론티어 모델과 대등한 정확도를 달성합니다. Yuan3.0 Flash는 후속 연구와 실제 도입을 촉진하기 위해 완전한 오픈 소스로 공개되었습니다: https://github.com/Yuan-lab-LLM/Yuan3.0.
We introduce Yuan3.0 Flash, an open-source Mixture-of-Experts (MoE) MultiModal Large Language Model featuring 3.7B activated parameters and 40B total parameters, specifically designed to enhance performance on enterprise-oriented tasks while maintaining competitive capabilities on general-purpose tasks. To address the overthinking phenomenon commonly observed in Large Reasoning Models (LRMs), we propose Reflection-aware Adaptive Policy Optimization (RAPO), a novel RL training algorithm that effectively regulates overthinking behaviors. In enterprise-oriented tasks such as retrieval-augmented generation (RAG), complex table understanding, and summarization, Yuan3.0 Flash consistently achieves superior performance. Moreover, it also demonstrates strong reasoning capabilities in domains such as mathematics, science, etc., attaining accuracy comparable to frontier model while requiring only approximately 1/4 to 1/2 of the average tokens. Yuan3.0 Flash has been fully open-sourced to facilitate further research and real-world deployment: https://github.com/Yuan-lab-LLM/Yuan3.0.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.