2602.12222v1 Feb 12, 2026 cs.LG

온-폴리시(On-Policy) SFT를 향하여: 분포 판별 이론 및 LLM 훈련에서의 응용

Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training

Miaosen Zhang
Miaosen Zhang
Citations: 334
h-index: 5
Yishan Liu
Yishan Liu
Citations: 138
h-index: 5
Shuxia Lin
Shuxia Lin
Citations: 12
h-index: 2
Xu Yang
Xu Yang
Citations: 365
h-index: 7
Qi Dai
Qi Dai
Citations: 363
h-index: 4
Peng-Fei Hou
Peng-Fei Hou
Citations: 26
h-index: 3
Anxiang Zeng
Anxiang Zeng
Citations: 23
h-index: 3
Xin Geng
Xin Geng
Citations: 22
h-index: 3
Baining Guo
Baining Guo
Citations: 25
h-index: 3
Wei Jiang
Wei Jiang
Citations: 91
h-index: 3
Chong Luo
Chong Luo
Citations: 14
h-index: 2

지도 미세조정(SFT)은 계산적으로 효율적이지만, 강화학습(RL)에 비해 종종 낮은 일반화 성능을 보인다. 이러한 격차는 주로 RL이 온-폴리시(on-policy) 데이터를 사용한다는 점에서 비롯된다. 본 논문에서는 온-폴리시 SFT를 가능하게 하여 이러한 간극을 메우는 프레임워크를 제안한다. 먼저 데이터와 모델이 유도한 분포 간의 일치도를 설명하고 정량화하는 '분포 판별 이론(Distribution Discriminant Theory, DDT)'을 제시한다. 이 DDT를 바탕으로 두 가지 상호 보완적인 기법을 소개한다: (i) SFT의 일반화 능력을 향상시키기 위한 손실 수준의 방법인 '분포 내 미세조정(In-Distribution Finetuning, IDFT)', (ii) 훈련 말뭉치를 모델의 분포에 맞게 재정렬할 수 있는 데이터 수준의 기법인 '힌트 디코딩(Hinted Decoding)'. 광범위한 실험을 통해 제안한 프레임워크가 SFT 파이프라인의 효율성을 유지하면서도 DPO 및 SimPO를 포함한 주요 오프라인 RL 알고리즘과 동등한 수준의 일반화 성능을 달성함을 입증한다. 따라서 이 프레임워크는 RL 적용이 불가능한 도메인에서 실용적인 대안을 제공한다. 관련 코드는 다음 링크에 오픈소스로 공개되어 있다: https://github.com/zhangmiaosen2000/Towards-On-Policy-SFT

Original Abstract

Supervised fine-tuning (SFT) is computationally efficient but often yields inferior generalization compared to reinforcement learning (RL). This gap is primarily driven by RL's use of on-policy data. We propose a framework to bridge this chasm by enabling On-Policy SFT. We first present \textbf{\textit{Distribution Discriminant Theory (DDT)}}, which explains and quantifies the alignment between data and the model-induced distribution. Leveraging DDT, we introduce two complementary techniques: (i) \textbf{\textit{In-Distribution Finetuning (IDFT)}}, a loss-level method to enhance generalization ability of SFT, and (ii) \textbf{\textit{Hinted Decoding}}, a data-level technique that can re-align the training corpus to the model's distribution. Extensive experiments demonstrate that our framework achieves generalization performance on par with prominent offline RL algorithms, including DPO and SimPO, while maintaining the efficiency of an SFT pipeline. The proposed framework thus offers a practical alternative in domains where RL is infeasible. We open-source the code here: https://github.com/zhangmiaosen2000/Towards-On-Policy-SFT

0 Citations
0 Influential
28.993061443341 Altmetric
145.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!