2602.03279v1 Feb 03, 2026 cs.AI

Agentic Proposing: 구성적 기술 합성을 통한 거대언어모델 추론 능력 향상

Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Zhengbo Jiao
Zhengbo Jiao
Citations: 13
h-index: 1
Zifan Zhang
Zifan Zhang
Citations: 18
h-index: 2
Bing Zhao
Bing Zhao
Citations: 40
h-index: 3
Shaobo Wang
Shaobo Wang
Citations: 8
h-index: 1
Linfeng Zhang
Linfeng Zhang
Citations: 48
h-index: 4
Xuan Ren
Xuan Ren
Citations: 6
h-index: 1
Hu Wei
Hu Wei
Citations: 15
h-index: 2

거대언어모델의 복잡한 추론 능력을 발전시키는 것은 고품질의 검증 가능한 데이터셋에 의존하지만, 인간에 의한 주석 작업은 여전히 비용이 많이 들고 확장하기 어렵습니다. 현재의 데이터 합성 패러다임은 구조적 타당성을 유지하면 문제의 복잡성이 제한되고, 난이도를 높이기 위해 제약을 완화하면 일관성이 없거나 해결 불가능한 사례가 빈번히 발생하는 트레이드오프 문제에 직면하고 있습니다. 이를 해결하기 위해 우리는 문제 합성을 목표 지향적인 순차적 의사결정 과정으로 모델링하여 전문화된 에이전트가 모듈식 추론 기술을 동적으로 선택하고 구성하는 프레임워크인 'Agentic Proposing'을 제안합니다. 내부 성찰과 도구 사용의 반복적인 워크플로우를 통해, 우리는 다중 입도 정책 최적화(MGPO)를 활용하여 수학, 코딩, 과학 분야 전반에 걸쳐 고정밀의 검증 가능한 훈련 궤적을 생성하는 Agentic-Proposer-4B를 개발했습니다. 실증적 결과에 따르면 에이전트가 합성한 데이터로 훈련된 다운스트림 모델은 주요 기준 모델들을 크게 능가하며 견고한 교차 도메인 일반화 성능을 보여줍니다. 특히, 단 11,000개의 합성 궤적만으로 훈련된 30B 모델이 AIME25에서 91.6%라는 최첨단 정확도를 달성하여 GPT-5와 같은 프론티어급 독점 모델과 대등한 성능을 보였으며, 이는 소량의 고품질 합성 신호가 대규모의 인간 구축 데이터셋을 효과적으로 대체할 수 있음을 증명합니다.

Original Abstract

Advancing complex reasoning in large language models relies on high-quality, verifiable datasets, yet human annotation remains cost-prohibitive and difficult to scale. Current synthesis paradigms often face a recurring trade-off: maintaining structural validity typically restricts problem complexity, while relaxing constraints to increase difficulty frequently leads to inconsistent or unsolvable instances. To address this, we propose Agentic Proposing, a framework that models problem synthesis as a goal-driven sequential decision process where a specialized agent dynamically selects and composes modular reasoning skills. Through an iterative workflow of internal reflection and tool-use, we develop the Agentic-Proposer-4B using Multi-Granularity Policy Optimization (MGPO) to generate high-precision, verifiable training trajectories across mathematics, coding, and science. Empirical results demonstrate that downstream solvers trained on agent-synthesized data significantly outperform leading baselines and exhibit robust cross-domain generalization. Notably, a 30B solver trained on only 11,000 synthesized trajectories achieves a state-of-the-art 91.6% accuracy on AIME25, rivaling frontier-scale proprietary models such as GPT-5 and proving that a small volume of high-quality synthetic signals can effectively substitute for massive human-curated datasets.

1 Citations
0 Influential
2 Altmetric
11.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!