언어 모델을 위한 특권 정보 증류
Privileged Information Distillation for Language Models
학습 시점에 제공되는 특권 정보(PI)는 언어 모델이 일반적으로 실패하는 작업에서 성공하도록 만들 수 있으며, 이는 어려운, 장기적인 환경에서의 강화 학습에 강력한 도구입니다. 그러나 PI를 사용하여 학습된 능력을 추론 시 PI 없이 작동해야 하는 정책으로 전달하는 것은 여전히 근본적인 과제입니다. 본 연구에서는 다중 턴 에이전트 환경을 위한 최첨단 모델을 증류하는 맥락에서 이 문제를 연구합니다. 이러한 환경은 일반적으로 내부 추론을 숨기고 행동 경로만 노출합니다. 이는 성공적인 행동은 관찰할 수 있지만 추론 과정은 관찰할 수 없으므로 표준 증류 파이프라인을 방해합니다. 이를 위해 PI에 조건부인 교사 모델과 조건이 없는 학생 모델을 동시에 동일한 모델을 사용하여 학습하는 공동 교사-학생 목표인 π-Distill을 소개합니다. 또한, 학생 모델과 PI에 조건부인 교사 모델 간의 역방향 KL 페널티를 사용하여 강화 학습(RL)으로 학습하는 대체 접근 방식인 On-Policy Self-Distillation (OPSD)을 소개합니다. 본 연구에서는 두 알고리즘 모두 행동 정보만 사용한 PI를 사용하여 최첨단 에이전트를 효과적으로 증류할 수 있음을 보여줍니다. 특히, π-Distill과, 경우에 따라 OPSD가 여러 에이전트 벤치마크, 모델, PI 형태에 걸쳐 완전한 Chain-of-Thought (사고 과정)을 활용한다고 가정하는 업계 표준 방식(지도 학습 후 강화 학습)보다 우수한 성능을 발휘합니다. 또한, PI를 사용한 효과적인 학습을 가능하게 하는 요인을 분석하고, 주로 π-Distill에 초점을 맞추고 OPSD가 경쟁력을 갖는 조건을 규명합니다.
Training-time privileged information (PI) can enable language models to succeed on tasks they would otherwise fail, making it a powerful tool for reinforcement learning in hard, long-horizon settings. However, transferring capabilities learned with PI to policies that must act without it at inference time remains a fundamental challenge. We study this problem in the context of distilling frontier models for multi-turn agentic environments, which typically hide their internal reasoning and expose only action trajectories. This breaks standard distillation pipelines, since successful behavior is observable, but the reasoning process is not. For this, we introduce π-Distill, a joint teacher-student objective that trains a PI-conditioned teacher and an unconditioned student simultaneously using the same model. Additionally, we also introduce On-Policy Self-Distillation (OPSD), an alternative approach that trains using Reinforcement Learning (RL) with a reverse KL-penalty between the student and the PI-conditioned teacher. We show that both of these algorithms effectively distill frontier agents using action-only PI. Specifically, we find that π-Distill and, in some cases, OPSD, outperform industry standard practices (Supervised finetuning followed by RL) that assume access to full Chain-of-Thought supervision across multiple agentic benchmarks, models, and forms of PI. We complement our results with extensive analysis that characterizes the factors enabling effective learning with PI, focusing primarily on π-Distill and characterizing when OPSD is competitive.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.