InCoder-32B: 산업 현장 시나리오를 위한 코드 기반 모델
InCoder-32B: Code Foundation Model for Industrial Scenarios
최근의 대규모 코드 언어 모델은 일반적인 프로그래밍 작업에서 놀라운 발전을 이루었습니다. 그러나 하드웨어 의미, 특수 언어 구성 및 엄격한 리소스 제약을 고려해야 하는 산업 현장에서는 성능이 크게 저하되는 경향이 있습니다. 이러한 과제를 해결하기 위해, 우리는 칩 설계, GPU 커널 최적화, 임베디드 시스템, 컴파일러 최적화 및 3D 모델링에 걸쳐 코드 지능을 통합하는 최초의 320억 파라미터 코드 기반 모델인 InCoder-32B (Industrial-Coder-32B)를 소개합니다. 효율적인 아키텍처를 채택하여, InCoder-32B는 일반적인 코드 사전 훈련, 선별된 산업 코드 훈련, 8K 토큰에서 128K 토큰으로 점진적으로 컨텍스트를 확장하는 중간 훈련 (합성 산업 추론 데이터 사용), 그리고 실행 기반 검증을 통한 후 훈련을 통해 처음부터 학습되었습니다. 우리는 14개의 주요 일반 코드 벤치마크와 4개의 전문 분야를 포괄하는 9개의 산업 벤치마크에 대해 광범위한 평가를 수행했습니다. 결과는 InCoder-32B가 일반적인 작업에서 매우 경쟁력 있는 성능을 달성하는 동시에 산업 분야 전반에 걸쳐 강력한 오픈 소스 기준을 제시한다는 것을 보여줍니다.
Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.