DeepSeek-V3.2: 오픈 거대 언어 모델의 최전선을 확장하다
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
우리는 높은 계산 효율성과 뛰어난 추론 및 에이전트 성능을 조화시킨 모델인 DeepSeek-V3.2를 소개합니다. DeepSeek-V3.2의 주요 기술적 혁신은 다음과 같습니다. (1) DeepSeek 희소 어텐션(DSA): 긴 문맥 시나리오에서 모델 성능을 유지하면서 계산 복잡도를 대폭 줄이는 효율적인 어텐션 메커니즘인 DSA를 도입합니다. (2) 확장 가능한 강화 학습 프레임워크: 강력한 강화 학습 프로토콜을 구현하고 사후 학습(post-training) 연산량을 확장함으로써, DeepSeek-V3.2는 GPT-5와 대등한 성능을 발휘합니다. 특히 고연산 변형 모델인 DeepSeek-V3.2-Speciale는 GPT-5를 능가하며 Gemini-3.0-Pro와 동등한 수준의 추론 능력을 보여주어, 2025 국제수학올림피아드(IMO)와 국제정보올림피아드(IOI)에서 모두 금메달급 성적을 달성했습니다. (3) 대규모 에이전트 작업 합성 파이프라인: 추론을 도구 사용 시나리오에 통합하기 위해 훈련 데이터를 대규모로 체계적으로 생성하는 새로운 합성 파이프라인을 개발했습니다. 이 방법론은 확장 가능한 에이전트 사후 학습을 촉진하여 복잡한 상호작용 환경에서 일반화 및 지시 이행의 견고성을 크게 향상시킵니다.
We introduce DeepSeek-V3.2, a model that harmonizes high computational efficiency with superior reasoning and agent performance. The key technical breakthroughs of DeepSeek-V3.2 are as follows: (1) DeepSeek Sparse Attention (DSA): We introduce DSA, an efficient attention mechanism that substantially reduces computational complexity while preserving model performance in long-context scenarios. (2) Scalable Reinforcement Learning Framework: By implementing a robust reinforcement learning protocol and scaling post-training compute, DeepSeek-V3.2 performs comparably to GPT-5. Notably, our high-compute variant, DeepSeek-V3.2-Speciale, surpasses GPT-5 and exhibits reasoning proficiency on par with Gemini-3.0-Pro, achieving gold-medal performance in both the 2025 International Mathematical Olympiad (IMO) and the International Olympiad in Informatics (IOI). (3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.
AI Analysis
Korean Summary
Key Innovations
- DeepSeek Sparse Attention (DSA): 긴 문맥 시나리오에서 성능 저하 없이 연산 복잡도를 대폭 줄이는 효율적인 어텐션 메커니즘
- 확장 가능한 강화 학습(RL) 프레임워크: Unbiased KL 추정 및 Off-Policy 시퀀스 마스킹 등을 통해 학습 안정성을 확보하고 포스트 트레이닝 연산을 대폭 확장
- 대규모 에이전트 작업 합성 파이프라인: 1,800개 이상의 환경과 85,000개의 프롬프트를 합성하여 에이전트의 일반화 및 지시 이행 능력 향상
- 도구 사용 내 생각(Thinking) 통합: 'Cold-Start' 방식과 컨텍스트 관리 전략을 통해 추론 과정과 도구 호출을 효과적으로 결합
- DeepSeek-V3.2-Speciale: 추론 길이 제약을 완화하고 순수 추론 데이터로 학습하여 최상위권 벤치마크 성능을 달성한 고성능 변형 모델
Learning & Inference Impact
추론(Inference) 단계에서는 DSA를 통해 어텐션 연산의 복잡도를 O(L^2)에서 O(Lk)로 줄여, 긴 시퀀스(128K) 처리 시 비용과 지연 시간을 획기적으로 단축했습니다. 학습(Learning) 단계에서는 GRPO 알고리즘을 개선(Unbiased KL Estimate, Off-Policy Masking 등)하여 대규모 RL 학습 시 발생하는 불안정성을 해결하고, 모델이 자체 생성한 데이터와 합성된 에이전트 데이터를 통해 도구 사용 및 복잡한 추론 능력을 강화했습니다. 이를 통해 오픈 소스 모델임에도 불구하고 독점적 최첨단 모델들과의 성능 격차를 크게 좁히거나 능가하는 결과를 얻었습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.