규칙 기반 온폴리시 증류
Rubric-based On-policy Distillation
온폴리시 증류(OPD)는 모델 정렬을 위한 강력한 패러다임이지만, 교사 모델의 로짓(logit)에 의존하기 때문에 주로 화이트박스 환경에서만 사용될 수 있습니다. 본 논문에서는 구조화된 의미론적 규칙(rubric)이 교사 모델 로짓의 대체 수단이 되어, 교사 모델이 생성한 응답만으로도 OPD를 가능하게 할 수 있다고 주장합니다. 이를 입증하기 위해, 규칙 기반 OPD를 위한 간단하면서도 핵심적인 프레임워크인 ROPD를 소개합니다. 구체적으로, ROPD는 교사-학생 모델 간의 비교를 통해 프롬프트별 규칙을 유도하고, 이 규칙들을 사용하여 학생 모델의 응답을 평가하고 온폴리시 최적화를 수행합니다. 실험 결과, ROPD는 대부분의 시나리오에서 고급 로짓 기반 OPD 방법보다 우수한 성능을 보이며, 최대 10배의 샘플 효율성 향상을 달성했습니다. 이러한 결과는 규칙 기반 OPD가 기존의 로짓 기반 OPD에 대한 유연하고 블랙박스 호환 가능한 대안으로서, 독점 및 오픈 소스 LLM에 대한 확장 가능한 증류를 위한 간단하면서도 강력한 기준을 제시함을 의미합니다. 코드: https://github.com/Peregrine123/ROPD_official
On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.