2601.01562v3 Jan 04, 2026 cs.AI

Logics-STEM: 실패 주도 사후 학습 및 문서 지식 강화를 통한 LLM 추론 능력 향상

Logics-STEM: Empowering LLM Reasoning via Failure-Driven Post-Training and Document Knowledge Enhancement

Mingyu Xu
Mingyu Xu
Citations: 11
h-index: 2
Cheng Fang
Cheng Fang
Citations: 6
h-index: 1
Yanghua Xiao
Yanghua Xiao
Citations: 7
h-index: 2
Baojian Zhou
Baojian Zhou
Citations: 13
h-index: 2
Suhang Zheng
Suhang Zheng
Citations: 108
h-index: 4
Yongchi Zhao
Yongchi Zhao
Citations: 223
h-index: 4
Yijia Luo
Yijia Luo
Citations: 120
h-index: 4
Zhiqi Bai
Zhiqi Bai
Citations: 194
h-index: 5
Yuchi Xu
Yuchi Xu
Citations: 79
h-index: 3
Wenbo Su
Wenbo Su
Citations: 1,073
h-index: 14
Wei Wang
Wei Wang
Citations: 8
h-index: 1
Bing Zhao
Bing Zhao
Citations: 61
h-index: 4
Lin Qu
Lin Qu
Citations: 548
h-index: 2
Xiaoxiao Xu
Xiaoxiao Xu
Citations: 16
h-index: 2
Keyue Jiang
Keyue Jiang
Citations: 21
h-index: 2
Xiuwen Zhu
Xiuwen Zhu
Citations: 24
h-index: 3
Jiyang Tang
Jiyang Tang
Language Technologies Institute, School of Computer Science, Carnegie Mellon University
Citations: 80
h-index: 5
Yuqian Zheng
Yuqian Zheng
Citations: 178
h-index: 6
Qifang Zhao
Qifang Zhao
Citations: 77
h-index: 6

우리는 최대 규모의 오픈 소스 장문 사고 사슬(long chain-of-thought) 말뭉치 중 하나인 1,000만(10M) 규모의 고품질 및 다목적 데이터셋 Logics-STEM-SFT-Dataset으로 미세 조정(fine-tuned)된 최첨단 추론 모델 Logics-STEM을 소개합니다. Logics-STEM은 과학, 기술, 공학, 수학(STEM) 분야의 추론 과제를 목표로 하며, 8B 규모 모델 중 차순위 모델 대비 평균 4.68% 향상된 성능을 기록하며 STEM 관련 벤치마크에서 뛰어난 성과를 입증했습니다. 우리는 이러한 성능 향상의 원인을 데이터와 알고리즘이 추론의 골드 스탠다드 분포(gold-standard distribution)에 부합하도록 공동 최적화되는 '데이터-알고리즘 공동 설계(co-design) 엔진'에 있다고 분석합니다. 데이터 측면에서 Logics-STEM-SFT-Dataset은 주석(annotation), 중복 제거(deduplication), 오염 제거(decontamination), 증류(distillation), 층화 추출(stratified sampling)을 포함한 5단계의 정교한 데이터 큐레이션 엔진을 통해 구축되어 품질, 다양성 및 확장성을 보장합니다. 알고리즘 측면에서는, 실패 주도 사후 학습(failure-driven post-training) 프레임워크가 지도 미세 조정(SFT) 단계에서 모델의 실패 영역을 중심으로 한 타겟 지식 검색 및 데이터 합성을 활용하여, 목표 분포에 더 잘 부합하도록 2단계 SFT 또는 강화 학습(RL)을 효과적으로 유도합니다. Logics-STEM의 우수한 실증적 성능은 대규모 오픈 소스 데이터와 정교하게 설계된 합성 데이터를 결합하는 것의 막대한 잠재력을 보여주며, 사후 학습을 통한 추론 능력 향상에 있어 데이터-알고리즘 공동 설계의 중요성을 강조합니다. 우리는 오픈 소스 커뮤니티의 후속 연구를 지원하기 위해 Logics-STEM 모델(8B 및 32B)과 Logics-STEM-SFT-Dataset(1,000만 및 220만 다운샘플링 버전)을 모두 공개합니다.

Original Abstract

We present Logics-STEM, a state-of-the-art reasoning model fine-tuned on Logics-STEM-SFT-Dataset, a high-quality and diverse dataset at 10M scale that represents one of the largest-scale open-source long chain-of-thought corpora. Logics-STEM targets reasoning tasks in the domains of Science, Technology, Engineering, and Mathematics (STEM), and exhibits exceptional performance on STEM-related benchmarks with an average improvement of 4.68% over the next-best model at 8B scale. We attribute the gains to our data-algorithm co-design engine, where they are jointly optimized to fit a gold-standard distribution behind reasoning. Data-wise, the Logics-STEM-SFT-Dataset is constructed from a meticulously designed data curation engine with 5 stages to ensure the quality, diversity, and scalability, including annotation, deduplication, decontamination, distillation, and stratified sampling. Algorithm-wise, our failure-driven post-training framework leverages targeted knowledge retrieval and data synthesis around model failure regions in the Supervised Fine-tuning (SFT) stage to effectively guide the second-stage SFT or the reinforcement learning (RL) for better fitting the target distribution. The superior empirical performance of Logics-STEM reveals the vast potential of combining large-scale open-source data with carefully designed synthetic data, underscoring the critical role of data-algorithm co-design in enhancing reasoning capabilities through post-training. We make both the Logics-STEM models (8B and 32B) and the Logics-STEM-SFT-Dataset (10M and downsampled 2.2M versions) publicly available to support future research in the open-source community.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!