동적 잠재 경로 탐색
Dynamic Latent Routing
본 연구에서는 시간 변화하는 보상 함수를 갖는 마르코프 결정 과정(MDP)에서 부분 정책들의 시간적 연결을 조사합니다. 우리는 General Dijkstra Search (GDS)를 소개하고, GDS를 통해 중간 최적 부분 정책들의 시간적 조합을 통해 전역적으로 최적의 목표 달성 정책을 도출할 수 있음을 증명합니다. GDS의 '탐색, 선택, 업데이트' 원칙에 영감을 받아, 동적 잠재 경로 탐색(Dynamic Latent Routing, DLR)이라는 언어 모델 추가 학습 방법을 제안합니다. DLR은 단일 학습 단계에서 이산적인 잠재 코드를 학습하고, 동시에 라우팅 정책과 모델 파라미터를 동적 탐색을 통해 공동으로 학습합니다. 데이터가 부족한 추가 학습 환경에서, DLR은 네 개의 데이터셋과 여섯 개의 모델에 걸쳐 지도 학습 기반 추가 학습 방법과 유사하거나 더 나은 성능을 보이며, 평균적으로 +6.6%의 성능 향상을 달성합니다. 기존의 이산 잠재 기반 방법들은 지속적으로 지도 학습 기반 추가 학습 방법보다 성능이 낮았습니다. 메커니즘 분석과 특정 코드 제거 실험을 통해, DLR이 명확한 인과적 역할을 수행하는 구조화된 라우팅 행동을 학습한다는 것을 확인했습니다.
We investigate the temporal concatenation of sub-policies in Markov Decision Processes (MDP) with time-varying reward functions. We introduce General Dijkstra Search (GDS), and prove that globally optimal goal-reaching policies can be recovered through temporal composition of intermediate optimal sub-policies. Motivated by the "search, select, update" principle underlying GDS, we propose Dynamic Latent Routing (DLR), a language-model post-training method that jointly learns discrete latent codes, routing policies, and model parameters through dynamic search in a single training stage. In low-data fine-tuning settings, DLR matches or outperforms supervised fine-tuning across four datasets and six models, achieving a mean gain of +6.6 percentage points, while prior discrete-latent baselines consistently underperform SFT. Mechanistic analyses and targeted code ablations show that DLR learns structured routing behaviors with distinct causal roles.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.