2605.07396v1 May 08, 2026 cs.LG

규칙 기반 온폴리시 증류

Rubric-based On-policy Distillation

Tat-Seng Chua
Tat-Seng Chua
Citations: 44
h-index: 3
Junfeng Fang
Junfeng Fang
Citations: 689
h-index: 14
Gengsheng Li
Gengsheng Li
Citations: 36
h-index: 2
Mingyang Song
Mingyang Song
Citations: 225
h-index: 8
Dan Zhang
Dan Zhang
Citations: 81
h-index: 4
Mao Zheng
Mao Zheng
Citations: 213
h-index: 8
Xiang Wang
Xiang Wang
Citations: 403
h-index: 10
Houcheng Jiang
Houcheng Jiang
Citations: 385
h-index: 7
Zhepei Hong
Zhepei Hong
Citations: 1
h-index: 1
Haiyun Guo
Haiyun Guo
Citations: 44
h-index: 3

온폴리시 증류(OPD)는 모델 정렬을 위한 강력한 패러다임이지만, 교사 모델의 로짓(logit)에 의존하기 때문에 주로 화이트박스 환경에서만 사용될 수 있습니다. 본 논문에서는 구조화된 의미론적 규칙(rubric)이 교사 모델 로짓의 대체 수단이 되어, 교사 모델이 생성한 응답만으로도 OPD를 가능하게 할 수 있다고 주장합니다. 이를 입증하기 위해, 규칙 기반 OPD를 위한 간단하면서도 핵심적인 프레임워크인 ROPD를 소개합니다. 구체적으로, ROPD는 교사-학생 모델 간의 비교를 통해 프롬프트별 규칙을 유도하고, 이 규칙들을 사용하여 학생 모델의 응답을 평가하고 온폴리시 최적화를 수행합니다. 실험 결과, ROPD는 대부분의 시나리오에서 고급 로짓 기반 OPD 방법보다 우수한 성능을 보이며, 최대 10배의 샘플 효율성 향상을 달성했습니다. 이러한 결과는 규칙 기반 OPD가 기존의 로짓 기반 OPD에 대한 유연하고 블랙박스 호환 가능한 대안으로서, 독점 및 오픈 소스 LLM에 대한 확장 가능한 증류를 위한 간단하면서도 강력한 기준을 제시함을 의미합니다. 코드: https://github.com/Peregrine123/ROPD_official

Original Abstract

On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.

1 Citations
0 Influential
27 Altmetric
136.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!