2603.16790v1 Mar 17, 2026 cs.SE

InCoder-32B: 산업 현장 시나리오를 위한 코드 기반 모델

InCoder-32B: Code Foundation Model for Industrial Scenarios

Zhuoran Li
Zhuoran Li
Citations: 0
h-index: 0
Wayne Xin Zhao
Wayne Xin Zhao
Citations: 2,446
h-index: 26
Ganqu Cui
Ganqu Cui
Citations: 12,144
h-index: 33
Wei Zhang
Wei Zhang
Citations: 13
h-index: 2
Bryan Dai
Bryan Dai
Citations: 14
h-index: 3
Xianglong Liu
Xianglong Liu
Citations: 35
h-index: 3
Jian Yang
Jian Yang
Citations: 7
h-index: 1
Jiajun Wu
Jiajun Wu
Citations: 9
h-index: 2
Junhang Cheng
Junhang Cheng
Citations: 5
h-index: 1
Haowen Wang
Haowen Wang
Citations: 35
h-index: 2
Wei-Quan Gu
Wei-Quan Gu
Citations: 42
h-index: 3
Yaxin Du
Yaxin Du
Citations: 320
h-index: 7
Joseph Li
Joseph Li
Citations: 12
h-index: 1
Fang-jiang Xu
Fang-jiang Xu
Citations: 3
h-index: 1
Lin Jing
Lin Jing
Citations: 5
h-index: 2
Yuhan Gao
Yuhan Gao
Citations: 2
h-index: 1
Ruihao Gong
Ruihao Gong
Citations: 4,106
h-index: 24
Chuan Hao
Chuan Hao
Citations: 3
h-index: 1
Ran Tao
Ran Tao
Citations: 4
h-index: 2
Aishan Liu
Aishan Liu
Citations: 16
h-index: 1
T. Zheng
T. Zheng
Citations: 539
h-index: 7
Mingjie Tang
Mingjie Tang
Citations: 142
h-index: 4
Chenghu Lin
Chenghu Lin
Citations: 4
h-index: 1
Weifeng Lv
Weifeng Lv
Citations: 10
h-index: 2

최근의 대규모 코드 언어 모델은 일반적인 프로그래밍 작업에서 놀라운 발전을 이루었습니다. 그러나 하드웨어 의미, 특수 언어 구성 및 엄격한 리소스 제약을 고려해야 하는 산업 현장에서는 성능이 크게 저하되는 경향이 있습니다. 이러한 과제를 해결하기 위해, 우리는 칩 설계, GPU 커널 최적화, 임베디드 시스템, 컴파일러 최적화 및 3D 모델링에 걸쳐 코드 지능을 통합하는 최초의 320억 파라미터 코드 기반 모델인 InCoder-32B (Industrial-Coder-32B)를 소개합니다. 효율적인 아키텍처를 채택하여, InCoder-32B는 일반적인 코드 사전 훈련, 선별된 산업 코드 훈련, 8K 토큰에서 128K 토큰으로 점진적으로 컨텍스트를 확장하는 중간 훈련 (합성 산업 추론 데이터 사용), 그리고 실행 기반 검증을 통한 후 훈련을 통해 처음부터 학습되었습니다. 우리는 14개의 주요 일반 코드 벤치마크와 4개의 전문 분야를 포괄하는 9개의 산업 벤치마크에 대해 광범위한 평가를 수행했습니다. 결과는 InCoder-32B가 일반적인 작업에서 매우 경쟁력 있는 성능을 달성하는 동시에 산업 분야 전반에 걸쳐 강력한 오픈 소스 기준을 제시한다는 것을 보여줍니다.

Original Abstract

Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.

0 Citations
0 Influential
16.5 Altmetric
82.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!