2604.24005v1 Apr 27, 2026 cs.LG

TCOD: 다중 턴 자율 에이전트를 위한 온-폴리시 증류에서의 시간 기반 교육 과정 탐색

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Yaliang Li
Yaliang Li
Citations: 42
h-index: 4
Wenhao Zhang
Wenhao Zhang
Citations: 77
h-index: 2
James Cheng
James Cheng
Citations: 29
h-index: 2
Jiaqi Wang
Jiaqi Wang
Citations: 35
h-index: 3
Weijie Shi
Weijie Shi
Citations: 25
h-index: 3

온-폴리시 증류(OPD)는 최첨단 또는 특정 도메인 모델의 추론 능력을 더 작은 모델로 이전하는 데 강력한 잠재력을 보여왔습니다. 단일 턴 작업에서는 효과적이지만, 다중 턴 에이전트 환경에서의 동작은 아직 충분히 연구되지 않았습니다. 본 연구에서는 이러한 환경에서 기본적인 OPD의 주요 한계를 밝히고, 이를 '트랙별 KL 불안정성'이라고 명명합니다. 구체적으로, 성공률이 감소함에 따라 KL 발산이 증가하며, 수렴 후에도 KL 값이 높게 유지되어 불안정한 학습이 발생하는 것을 관찰했습니다. 이러한 불안정성은 트랙 내 오류의 누적에서 비롯됩니다. 오류가 누적되면, 학생 모델은 교사 모델의 효과적인 지원 범위를 벗어나게 되어, 지도 신호가 신뢰할 수 없게 됩니다. 이를 해결하기 위해, 우리는 TCOD(Temporal Curriculum On-Policy Distillation)라는 간단하면서도 효과적인 프레임워크를 제안합니다. TCOD는 학생 모델에게 제시되는 트랙의 깊이를 제어하고, 교육 과정을 통해 짧은 트랙에서 점진적으로 긴 트랙으로 확장합니다. 세 가지 다중 턴 에이전트 벤치마크(ALFWorld, WebShop, ScienceWorld)에서 네 쌍의 학생-교사 모델을 대상으로 실험한 결과, TCOD는 KL 값의 급격한 증가를 완화하고 전체 학습 과정에서 KL 값의 안정성을 향상시켜, 기본적인 OPD보다 최대 18%의 성능 향상을 보였습니다. 추가적인 평가 결과, TCOD는 교사 모델의 성능을 능가하고, 교사 모델이 실패하는 작업에서도 일반화되는 것을 확인했습니다.

Original Abstract

On-policy distillation (OPD) has shown strong potential for transferring reasoning ability from frontier or domain-specific models to smaller students. While effective on static single-turn tasks, its behavior in multi-turn agent settings remains underexplored. In this work, we identify a key limitation of vanilla OPD in such settings, which we term Trajectory-Level KL Instability. Specifically, we observe that KL divergence increases together with a drop in success rate, and even after convergence, the KL remains high, leading to unstable training. This instability arises from inter-turn error compounding: as errors accumulate, the student is driven beyond the teacher's effective support, rendering the supervision signal unreliable. To address this, we propose TCOD (Temporal Curriculum On-Policy Distillation), a simple yet effective framework that controls the trajectory depth exposed to the student and progressively expands it from short to long with a curriculum schedule.Experimental results across four student-teacher pairs on three multi-turn agent benchmarks (ALFWorld, WebShop, ScienceWorld) show that TCOD mitigates KL escalation and enhances KL stability throughout training, improving agent performance by up to 18 points over vanilla OPD. Further evaluations show that TCOD can even surpass the teacher's performance and generalize to tasks on which the teacher fails.

5 Citations
0 Influential
2 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!