키메라(CHIMERA): 일반화된 LLM 추론을 위한 소형 합성 데이터
CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
최근 대규모 언어 모델(LLM)은 괄목할 만한 추론 능력을 보여주었으며, 이는 주로 고품질 추론 데이터에 대한 지도 학습(SFT) 및 강화 학습(RL) 기반의 추가 훈련 덕분입니다. 그러나 이러한 능력을 개방적이고 확장 가능한 환경에서 재현하고 확장하는 데는 다음과 같은 세 가지 근본적인 데이터 중심적인 문제가 있습니다. (1) 초기 설정 문제: 상세하고 긴 추론 경로(Chain-of-Thought, CoT)를 포함하는 초기 데이터셋 부족으로 인해 추론 정책을 초기화하는 데 어려움이 있습니다. (2) 제한적인 도메인 범위: 대부분의 기존 공개 추론 데이터셋이 수학 분야에 집중되어 있어 광범위한 과학 분야에 대한 적용이 제한적입니다. (3) 어노테이션 병목 현상: 최첨단 추론 작업의 난이도 때문에 신뢰할 수 있는 인간 어노테이션이 지나치게 비싸거나 불가능합니다. 이러한 문제점을 해결하기 위해, 우리는 일반적인 교차 도메인 추론을 위한 9,000개의 샘플로 구성된 소형 합성 추론 데이터셋인 CHIMERA를 소개합니다. CHIMERA는 다음 세 가지 주요 특징을 갖습니다. (1) 최첨단 추론 모델에 의해 생성된 풍부하고 긴 CoT 추론 경로를 제공합니다. (2) 8개의 주요 과학 분야와 1,000개 이상의 세분화된 주제를 포괄하는 광범위하고 체계적인 범위를 가지며, 모델이 생성한 계층적 분류 체계를 통해 구성됩니다. (3) 강력한 추론 모델을 사용하여 문제의 유효성과 정답의 정확성을 교차 검증하는 완전 자동화된 확장 가능한 평가 파이프라인을 사용합니다. 우리는 CHIMERA를 사용하여 40억 개의 파라미터를 가진 Qwen3 모델을 추가 훈련했습니다. 데이터셋의 규모가 작음에도 불구하고, 결과 모델은 GPQA-Diamond, AIME 24/25/26, HMMT 25, Humanity's Last Exam 등 다양한 어려운 추론 벤치마크에서 뛰어난 성능을 보였으며, DeepSeek-R1 및 Qwen3-235B와 같은 훨씬 더 큰 모델의 추론 성능에 근접하거나 일치하는 결과를 얻었습니다.
Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.