Logics-STEM: 실패 주도 사후 학습 및 문서 지식 강화를 통한 LLM 추론 능력 향상
Logics-STEM: Empowering LLM Reasoning via Failure-Driven Post-Training and Document Knowledge Enhancement
우리는 최대 규모의 오픈 소스 장문 사고 사슬(long chain-of-thought) 말뭉치 중 하나인 1,000만(10M) 규모의 고품질 및 다목적 데이터셋 Logics-STEM-SFT-Dataset으로 미세 조정(fine-tuned)된 최첨단 추론 모델 Logics-STEM을 소개합니다. Logics-STEM은 과학, 기술, 공학, 수학(STEM) 분야의 추론 과제를 목표로 하며, 8B 규모 모델 중 차순위 모델 대비 평균 4.68% 향상된 성능을 기록하며 STEM 관련 벤치마크에서 뛰어난 성과를 입증했습니다. 우리는 이러한 성능 향상의 원인을 데이터와 알고리즘이 추론의 골드 스탠다드 분포(gold-standard distribution)에 부합하도록 공동 최적화되는 '데이터-알고리즘 공동 설계(co-design) 엔진'에 있다고 분석합니다. 데이터 측면에서 Logics-STEM-SFT-Dataset은 주석(annotation), 중복 제거(deduplication), 오염 제거(decontamination), 증류(distillation), 층화 추출(stratified sampling)을 포함한 5단계의 정교한 데이터 큐레이션 엔진을 통해 구축되어 품질, 다양성 및 확장성을 보장합니다. 알고리즘 측면에서는, 실패 주도 사후 학습(failure-driven post-training) 프레임워크가 지도 미세 조정(SFT) 단계에서 모델의 실패 영역을 중심으로 한 타겟 지식 검색 및 데이터 합성을 활용하여, 목표 분포에 더 잘 부합하도록 2단계 SFT 또는 강화 학습(RL)을 효과적으로 유도합니다. Logics-STEM의 우수한 실증적 성능은 대규모 오픈 소스 데이터와 정교하게 설계된 합성 데이터를 결합하는 것의 막대한 잠재력을 보여주며, 사후 학습을 통한 추론 능력 향상에 있어 데이터-알고리즘 공동 설계의 중요성을 강조합니다. 우리는 오픈 소스 커뮤니티의 후속 연구를 지원하기 위해 Logics-STEM 모델(8B 및 32B)과 Logics-STEM-SFT-Dataset(1,000만 및 220만 다운샘플링 버전)을 모두 공개합니다.
We present Logics-STEM, a state-of-the-art reasoning model fine-tuned on Logics-STEM-SFT-Dataset, a high-quality and diverse dataset at 10M scale that represents one of the largest-scale open-source long chain-of-thought corpora. Logics-STEM targets reasoning tasks in the domains of Science, Technology, Engineering, and Mathematics (STEM), and exhibits exceptional performance on STEM-related benchmarks with an average improvement of 4.68% over the next-best model at 8B scale. We attribute the gains to our data-algorithm co-design engine, where they are jointly optimized to fit a gold-standard distribution behind reasoning. Data-wise, the Logics-STEM-SFT-Dataset is constructed from a meticulously designed data curation engine with 5 stages to ensure the quality, diversity, and scalability, including annotation, deduplication, decontamination, distillation, and stratified sampling. Algorithm-wise, our failure-driven post-training framework leverages targeted knowledge retrieval and data synthesis around model failure regions in the Supervised Fine-tuning (SFT) stage to effectively guide the second-stage SFT or the reinforcement learning (RL) for better fitting the target distribution. The superior empirical performance of Logics-STEM reveals the vast potential of combining large-scale open-source data with carefully designed synthetic data, underscoring the critical role of data-algorithm co-design in enhancing reasoning capabilities through post-training. We make both the Logics-STEM models (8B and 32B) and the Logics-STEM-SFT-Dataset (10M and downsampled 2.2M versions) publicly available to support future research in the open-source community.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.