2602.13407v1 Feb 13, 2026 cs.AI

효율적인 추론을 위한 온-폴리시 감독 학습 미세 조정

On-Policy Supervised Fine-Tuning for Efficient Reasoning

Wei Wang
Wei Wang
Citations: 0
h-index: 0
Anhao Zhao
Anhao Zhao
Citations: 107
h-index: 6
Ziyang Chen
Ziyang Chen
Citations: 33
h-index: 3
Junlong Tong
Junlong Tong
Citations: 64
h-index: 5
Yingqi Fan
Yingqi Fan
Citations: 73
h-index: 5
Fanghua Ye
Fanghua Ye
Citations: 31
h-index: 3
Shuhao Li
Shuhao Li
Citations: 103
h-index: 4
Yunpu Ma
Yunpu Ma
Citations: 24
h-index: 3
Xiaoyu Shen
Xiaoyu Shen
Citations: 99
h-index: 6

대규모 추론 모델(LRM)은 일반적으로 강화 학습(RL)을 사용하여 긴 사고 과정을 탐색하며, 뛰어난 성능을 달성하지만 계산 비용이 높습니다. 최근 연구에서는 정확성과 간결성을 동시에 최적화하기 위해 다중 보상 목표를 추가하지만, 이러한 복잡한 확장 방식은 종종 학습을 불안정하게 만들고 최적의 균형을 이루지 못합니다. 본 연구에서는 이러한 목표를 재검토하고, 이러한 복잡성이 얼마나 필수적인지를 분석합니다. 체계적인 분석을 통해, 우리는 이 패러다임의 근본적인 불일치를 확인했습니다. KL 정규화는 정확성과 길이가 직접적으로 검증될 때 의도된 역할을 상실하며, 그룹별 정규화는 여러 보상 신호 하에서 모호해집니다. 이러한 두 가지 요소를 제거하고 보상을 절단 기반 길이 페널티로 단순화함으로써, 최적화 문제는 정확성과 간결성을 모두 고려하여 자체 생성 데이터를 기반으로 하는 감독 학습 미세 조정 문제로 축소됩니다. 우리는 이 단순화된 학습 전략을 '온-폴리시 SFT(Supervised Fine-Tuning)'라고 명명합니다. 이 방법은 단순함에도 불구하고, 일관되게 정확성-효율성의 파레토 최적 경계를 정의합니다. 온-폴리시 SFT는 원래 정확도를 유지하면서 CoT(Chain-of-Thought) 길이를 최대 80%까지 줄이며, 다섯 가지 벤치마크에서 더 복잡한 RL 기반 방법보다 뛰어난 성능을 보입니다. 또한, GPU 메모리 사용량을 50% 줄이고 수렴 속도를 70% 가속화하여 학습 효율성을 크게 향상시킵니다. 저희의 코드는 https://github.com/EIT-NLP/On-Policy-SFT 에서 확인할 수 있습니다.

Original Abstract

Large reasoning models (LRMs) are commonly trained with reinforcement learning (RL) to explore long chain-of-thought reasoning, achieving strong performance at high computational cost. Recent methods add multi-reward objectives to jointly optimize correctness and brevity, but these complex extensions often destabilize training and yield suboptimal trade-offs. We revisit this objective and challenge the necessity of such complexity. Through principled analysis, we identify fundamental misalignments in this paradigm: KL regularization loses its intended role when correctness and length are directly verifiable, and group-wise normalization becomes ambiguous under multiple reward signals. By removing these two items and simplifying the reward to a truncation-based length penalty, we show that the optimization problem reduces to supervised fine-tuning on self-generated data filtered for both correctness and conciseness. We term this simplified training strategy on-policy SFT. Despite its simplicity, on-policy SFT consistently defines the accuracy-efficiency Pareto frontier. It reduces CoT length by up to 80 while maintaining original accuracy, surpassing more complex RL-based methods across five benchmarks. Furthermore, it significantly enhances training efficiency, reducing GPU memory usage by 50% and accelerating convergence by 70%. Our code is available at https://github.com/EIT-NLP/On-Policy-SFT.

2 Citations
0 Influential
23 Altmetric
117.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!