2601.19624v1 Jan 27, 2026 cs.LG

드리프트 추적: 변동성 인지 엔트로피 스케줄링을 통한 비정상적인 강화 학습

Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning

Tongxi Wang
Tongxi Wang
Citations: 3
h-index: 1
Xinran Chen
Xinran Chen
Citations: 655
h-index: 12
Zhuoyang Xia
Zhuoyang Xia
Citations: 0
h-index: 0
Shan Liu
Shan Liu
Citations: 0
h-index: 0

실제 환경에서의 강화 학습은 종종 환경 변화(드리프트)에 직면하지만, 대부분의 기존 방법은 고정된 엔트로피 계수 또는 목표 엔트로피를 사용하며, 이는 안정적인 기간 동안 과도한 탐색을 유발하고, 변화가 발생한 후에는 탐색이 부족하여 회복 속도가 느려지는 문제를 야기합니다. 또한, 탐색 강도가 드리프트의 크기에 어떻게 비례해야 하는지에 대한 근본적인 질문에 대한 답을 제공하지 못합니다. 본 연구에서는 비정상적인 환경에서 엔트로피 스케줄링이 각 라운드마다 일차원적인 균형 문제로 단순화될 수 있음을 증명합니다. 이는 변화 후 최적 해를 빠르게 추적하는 것과 안정적인 환경에서 불필요한 무작위성을 피하는 것 사이의 균형이며, 따라서 측정 가능한 실시간 드리프트 신호를 통해 탐색 강도를 조절할 수 있습니다. 이를 바탕으로, AES(Adaptive Entropy Scheduling)라는 방법을 제안합니다. AES는 훈련 과정에서 관찰 가능한 드리프트 지표를 사용하여 엔트로피 계수/온도를 적응적으로 조정하며, 거의 구조적인 변경 없이 적용 가능하고 오버헤드가 매우 적습니다. 4가지 알고리즘 변형, 12가지 작업, 그리고 4가지 드리프트 모드에 대한 실험 결과, AES는 드리프트로 인한 성능 저하를 크게 줄이고, 갑작스러운 변화 이후 회복 속도를 가속화하는 것을 확인했습니다.

Original Abstract

Real-world reinforcement learning often faces environment drift, but most existing methods rely on static entropy coefficients/target entropy, causing over-exploration during stable periods and under-exploration after drift (thus slow recovery), and leaving unanswered the principled question of how exploration intensity should scale with drift magnitude. We prove that entropy scheduling under non-stationarity can be reduced to a one-dimensional, round-by-round trade-off, faster tracking of the optimal solution after drift vs. avoiding gratuitous randomness when the environment is stable, so exploration strength can be driven by measurable online drift signals. Building on this, we propose AES (Adaptive Entropy Scheduling), which adaptively adjusts the entropy coefficient/temperature online using observable drift proxies during training, requiring almost no structural changes and incurring minimal overhead. Across 4 algorithm variants, 12 tasks, and 4 drift modes, AES significantly reduces the fraction of performance degradation caused by drift and accelerates recovery after abrupt changes.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!