2505.09388 May 14, 2025 cs.AI

Qwen3 기술 보고서

Qwen3 Technical Report

Zeyu Cui
Zeyu Cui
Citations: 13,153
h-index: 11
Kai Dang
Kai Dang
Citations: 21,269
h-index: 14
Yang Fan
Yang Fan
Citations: 10,717
h-index: 6
Fei Huang
Fei Huang
Qwen Team, Alibaba Group
Citations: 13,713
h-index: 15
Mei Li
Mei Li
Citations: 12,413
h-index: 8
Rui Men
Rui Men
Citations: 19,636
h-index: 25
Jian Yang
Jian Yang
Citations: 11,962
h-index: 5
Zhenru Zhang
Zhenru Zhang
Citations: 13,610
h-index: 9
An Yang
An Yang
Citations: 8,711
h-index: 13
Anfeng Li
Anfeng Li
Citations: 3,394
h-index: 1
Baosong Yang
Baosong Yang
Citations: 9,279
h-index: 10
Beichen Zhang
Beichen Zhang
Citations: 8,033
h-index: 7
Binyuan Hui
Binyuan Hui
Citations: 9,064
h-index: 12
Bo Zheng
Bo Zheng
Citations: 8,860
h-index: 8
Bowen Yu
Bowen Yu
Citations: 9,048
h-index: 17
Chang Gao
Chang Gao
Citations: 4,299
h-index: 6
Chengen Huang
Chengen Huang
Citations: 3,393
h-index: 1
Chenxu Lv
Chenxu Lv
Citations: 3,618
h-index: 2
Chujie Zheng
Chujie Zheng
Tsinghua University
Citations: 6,946
h-index: 25
Dayiheng Liu
Dayiheng Liu
Citations: 16,165
h-index: 22
Fan Zhou
Fan Zhou
Citations: 3,542
h-index: 4
Feng Hu
Feng Hu
Citations: 3,472
h-index: 4
Hao Ge
Hao Ge
Citations: 3,392
h-index: 1
Haoran Wei
Haoran Wei
Citations: 8,684
h-index: 6
Huan Lin
Huan Lin
Citations: 9,424
h-index: 6
Jialong Tang
Jialong Tang
Citations: 5,737
h-index: 7
Jianhong Tu
Jianhong Tu
Citations: 7,909
h-index: 7
Jianwei Zhang
Jianwei Zhang
Citations: 6,835
h-index: 4
Jianxin Yang
Jianxin Yang
Citations: 7,503
h-index: 7
Jiaxin Yang
Jiaxin Yang
Citations: 6,899
h-index: 7
Jingren Zhou
Jingren Zhou
Citations: 9,155
h-index: 24
Junyan Lin
Junyan Lin
Citations: 3,396
h-index: 2
Keqin Bao
Keqin Bao
Citations: 6,745
h-index: 6
Ke‐Pei Yang
Ke‐Pei Yang
Citations: 3,399
h-index: 2
Le Yu
Le Yu
Citations: 3,414
h-index: 3
Li-Chun Deng
Li-Chun Deng
Citations: 3,398
h-index: 2
Min Xue
Min Xue
Citations: 5,304
h-index: 3
Mingze Li
Mingze Li
Citations: 3,399
h-index: 2
Pei Zhang
Pei Zhang
Citations: 8,648
h-index: 5
Peng Wang
Peng Wang
Citations: 3,400
h-index: 2
Qin Zhu
Qin Zhu
Citations: 7,227
h-index: 8
Ruize Gao
Ruize Gao
Citations: 5,399
h-index: 5
Shi-Qiang Liu
Shi-Qiang Liu
Citations: 3,397
h-index: 2
Shuang Luo
Shuang Luo
Citations: 3,415
h-index: 3
Tianhao Li
Tianhao Li
Citations: 8,645
h-index: 5
Tianyi Tang
Tianyi Tang
Citations: 3,457
h-index: 3
Wenbiao Yin
Wenbiao Yin
Citations: 4,112
h-index: 12
Xingzhang Ren
Xingzhang Ren
Citations: 10,631
h-index: 9
Xinyu Wang
Xinyu Wang
Citations: 3,403
h-index: 3
Xinyu Zhang
Xinyu Zhang
Citations: 5,315
h-index: 3
Xuancheng Ren
Xuancheng Ren
Citations: 13,461
h-index: 9
Yang Su
Yang Su
Citations: 3,393
h-index: 1
Yi-Chao Zhang
Yi-Chao Zhang
Citations: 6,713
h-index: 3
Yinger Zhang
Yinger Zhang
Citations: 3,393
h-index: 1
Yu Wan
Yu Wan
Citations: 3,399
h-index: 2
Yuqiong Liu
Yuqiong Liu
Citations: 4,037
h-index: 4
Zekun Wang
Zekun Wang
Citations: 7,453
h-index: 11
Zhipeng Zhou
Zhipeng Zhou
Citations: 3,422
h-index: 3
Zihan Qiu
Zihan Qiu
Citations: 6,842
h-index: 5

본 연구에서는 Qwen 모델 제품군의 최신 버전인 Qwen3를 소개합니다. Qwen3는 성능, 효율성 및 다국어 기능을 향상시키기 위해 설계된 일련의 대형 언어 모델(LLM)로 구성됩니다. Qwen3 시리즈에는 0.6에서 2,350억 사이의 매개변수 규모를 가진 밀집(dense) 아키텍처와 전문가 혼합(MoE) 아키텍처 모델이 모두 포함됩니다. Qwen3의 핵심 혁신은 사고 모드(복잡한 다단계 추론용)와 비사고 모드(빠른 문맥 기반 응답용)를 통합된 프레임워크에 결합한 것입니다. 이는 채팅 최적화 모델(예: GPT-4o)과 전용 추론 모델(예: QwQ-32B)과 같이 서로 다른 모델 간에 전환할 필요를 없애고, 사용자 쿼리나 채팅 템플릿에 따라 동적 모드 전환을 가능하게 합니다. 한편, Qwen3는 사고 예산(thinking budget) 메커니즘을 도입하여 사용자가 추론 중에 계산 리소스를 적응적으로 할당할 수 있게 함으로써, 작업 복잡성에 따라 지연 시간과 성능의 균형을 맞춥니다. 또한, 플래그십 모델의 지식을 활용하여 소규모 모델 구축에 필요한 계산 리소스를 크게 줄이면서도 매우 경쟁력 있는 성능을 보장합니다. 실증적 평가 결과, Qwen3는 코드 생성, 수학적 추론, 에이전트 작업 등 다양한 벤치마크에서 최첨단(SOTA) 결과를 달성했으며, 더 큰 MoE 모델 및 독점 모델과 견줄 만한 성능을 보여줍니다. 이전 버전인 Qwen2.5와 비교하여 Qwen3는 다국어 지원을 29개에서 119개 언어 및 방언으로 확장하였으며, 향상된 교차 언어 이해 및 생성 능력을 통해 글로벌 접근성을 강화했습니다. 재현성과 커뮤니티 주도의 연구 개발을 촉진하기 위해, 모든 Qwen3 모델은 Apache 2.0 라이선스 하에 공개적으로 액세스할 수 있습니다.

Original Abstract

In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.

3560 Citations
499 Influential
12.5 Altmetric
4,620.5 Score

AI Analysis

Korean Summary

Qwen3는 Qwen 모델 제품군의 최신 시리즈로, 0.6B에서 235B 파라미터 규모의 Dense 및 MoE(Mixture-of-Experts) 모델들을 포함합니다. 이 시리즈의 핵심은 복잡한 추론을 위한 'Thinking Mode'와 빠른 응답을 위한 'Non-thinking Mode'를 단일 프레임워크에 통합하여, 별도의 모델 전환 없이 사용자의 요구에 맞춰 작동한다는 점입니다. 또한 사용자가 추론에 투입할 연산 자원을 조절할 수 있는 'Thinking Budget' 메커니즘을 도입했습니다. 36조 토큰의 방대한 데이터로 사전 학습되었으며, 대형 모델의 지식을 소형 모델로 효율적으로 전이하는 'Strong-to-Weak Distillation' 기법을 통해 훈련 효율성을 높였습니다. 그 결과 코딩, 수학, 다국어 작업 등 다양한 벤치마크에서 기존 오픈 소스 및 일부 독점 모델을 능가하는 SOTA(State-of-the-Art) 성능을 달성했습니다.

Key Innovations

  • Thinking Mode(심층 추론)와 Non-thinking Mode(빠른 응답)의 단일 모델 통합
  • 추론 연산량을 사용자가 제어할 수 있는 Thinking Budget(사고 예산) 메커니즘
  • 대형 모델의 성능을 소형 모델로 효율적으로 이전하는 Strong-to-Weak Distillation
  • 추론 능력과 일반 대화 능력을 결합하는 4단계 포스트 트레이닝 파이프라인
  • 학습 안정성을 강화한 아키텍처 개선(QK-Norm 도입 및 QKV-bias 제거)

Learning & Inference Impact

학습 측면에서는 Strong-to-Weak Distillation을 통해 소형 모델이 대형 모델의 추론 능력을 1/10 수준의 GPU 시간으로 효율적으로 학습할 수 있게 되었으며, 강화 학습(RL)보다 더 높은 성능 향상을 이끌어냈습니다. 추론 측면에서는 사용자가 'Thinking Budget'을 설정함으로써 태스크의 복잡도에 따라 지연 시간(Latency)과 성능의 균형을 동적으로 조절할 수 있게 되었습니다. 이는 추론 전용 모델(예: o1)과 채팅 모델(예: GPT-4o)을 별도로 배포할 필요성을 없애 시스템 복잡도와 운영 비용을 크게 절감시킵니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!