IQuest-Coder-V1 기술 보고서
IQuest-Coder-V1 Technical Report
본 보고서에서는 새로운 코드 기반 거대 언어 모델(LLM) 제품군인 IQuest-Coder-V1 시리즈(7B/14B/40B/40B-Loop)를 소개합니다. 우리는 정적인 코드 표현을 넘어, 파이프라인의 다양한 단계에서 소프트웨어 로직의 동적 변화를 포착하는 코드-플로우 다단계 훈련 패러다임을 제안합니다. 당사의 모델은 코드 사실, 저장소 및 완성 데이터로 구성된 초기 사전 훈련을 시작으로 진화적인 파이프라인을 통해 개발되었습니다. 그 후, 32k 컨텍스트에서 추론 및 에이전트 경로를 통합하고 128k 컨텍스트에서 저장소 규모를 활용하여 깊은 논리적 기반을 구축하는 특수 중간 훈련 단계를 구현했습니다. 모델은 이후 전문적인 코딩 능력을 향상시키는 사후 훈련을 거치며, 이는 추론 기반 강화 학습을 활용하는 '사고 경로'와 일반적인 지원에 최적화된 '지시 경로'라는 두 가지 전문적인 경로로 분기됩니다. IQuest-Coder-V1은 에이전트 기반 소프트웨어 엔지니어링, 경쟁 프로그래밍 및 복잡한 도구 사용과 같은 코드 지능의 중요한 측면에서 경쟁 모델 대비 최고 수준의 성능을 달성했습니다. 배포 제약을 해결하기 위해, IQuest-Coder-V1-Loop 변형은 모델 용량과 배포 공간 간의 균형을 최적화하도록 설계된 순환 메커니즘을 도입하여 효율성과 성능 간의 균형을 향상시키는 아키텍처적 개선을 제공합니다. 우리는 사전 훈련 기반부터 최종 사고 및 지시 모델까지 완전한 화이트박스 체인으로 구성된 IQuest-Coder-V1 시리즈를 공개함으로써, 자율적인 코드 지능 및 실제 에이전트 시스템 연구 발전에 기여할 것이라고 믿습니다.
In this report, we introduce the IQuest-Coder-V1 series-(7B/14B/40B/40B-Loop), a new family of code large language models (LLMs). Moving beyond static code representations, we propose the code-flow multi-stage training paradigm, which captures the dynamic evolution of software logic through different phases of the pipeline. Our models are developed through the evolutionary pipeline, starting with the initial pre-training consisting of code facts, repository, and completion data. Following that, we implement a specialized mid-training stage that integrates reasoning and agentic trajectories in 32k-context and repository-scale in 128k-context to forge deep logical foundations. The models are then finalized with post-training of specialized coding capabilities, which is bifurcated into two specialized paths: the thinking path (utilizing reasoning-driven RL) and the instruct path (optimized for general assistance). IQuest-Coder-V1 achieves state-of-the-art performance among competitive models across critical dimensions of code intelligence: agentic software engineering, competitive programming, and complex tool use. To address deployment constraints, the IQuest-Coder-V1-Loop variant introduces a recurrent mechanism designed to optimize the trade-off between model capacity and deployment footprint, offering an architecturally enhanced path for efficacy-efficiency trade-off. We believe the release of the IQuest-Coder-V1 series, including the complete white-box chain of checkpoints from pre-training bases to the final thinking and instruction models, will advance research in autonomous code intelligence and real-world agentic systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.