2605.05863v1 May 07, 2026 cs.LG

SOPE: 사전 데이터 활용 온라인 강화 학습의 오프라인 평가 안정화

SOPE: Stabilizing Off-Policy Evaluation for Online RL with Prior Data

Andrew D. Bagdanov
Andrew D. Bagdanov
Citations: 8,122
h-index: 38
Carlo Romeo
Carlo Romeo
Citations: 7
h-index: 1
Girolamo Macaluso
Girolamo Macaluso
Citations: 16
h-index: 2
Alessandro Sestini
Alessandro Sestini
Citations: 148
h-index: 7

사전 데이터를 온라인 강화 학습에 통합하면 학습 속도가 빨라지지만, 일반적으로 높은 계산 비용과 복잡한 학습 파이프라인 간의 어려운 균형을 맞춰야 합니다. 고정 길이 안정화 단계는 정적 업데이트 스케줄보다 훨씬 계산 효율적이지만, 작업에 따라 수동으로 조정해야 하며, 이 과정에서 사전 지식을 낭비하거나 심각한 과적합이 발생할 위험이 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 SOPE라는 알고리즘을 제안합니다. SOPE는 액터와 정렬된 오프라인 정책 평가(OPE) 신호를 사용하여 자동화된 조기 종료 메커니즘을 통해 오프라인 학습 단계의 길이를 동적으로 제어합니다. SOPE는 현재 정책의 행동 분포 하에서 별도의 검증 데이터 세트에 대해 크리틱을 평가하여, 분포 외의 이점이 포화되는 시점에 정확하게 그래디언트 업데이트를 중단함으로써 수동 스케줄 조정의 필요성을 없앱니다. Minari 벤치마크 스위트의 25가지 연속 제어 작업에서 SOPE를 평가한 결과, 기준 성능을 최대 45.6% 향상시키고 필요한 TFLOPs를 최대 22배까지 줄여, 샘플 효율성과 계산 효율성 간의 균형을 맞춥니다. 이러한 결과는 적응적이고 평가 기반의 업데이트 스케줄이 정적이고 포괄적인 업데이트 스케줄보다 효과적임을 보여줍니다.

Original Abstract

Incorporating prior data into online reinforcement learning accelerates training but typically forces a difficult trade-off between high computational costs and long, multi-stage training pipelines. While fixed-length stabilization phases are significantly more computationally efficient than static update schedules, they require task-dependent manual tuning, risking either the waste of prior knowledge or severe overfitting. To address this, we propose SOPE, an algorithm that uses an actor-aligned Off-Policy Policy Evaluation (OPE) signal as an automated early-stopping mechanism to dynamically control the length of offline training phases. By evaluating the critic on a held-out validation split under the current policy's action distribution, SOPE halts gradient updates exactly when out-of-distribution benefits saturate, eliminating the need for manual schedule tuning. Evaluated on 25 continuous control tasks from the Minari benchmark suite, SOPE improves baseline performance by up to 45.6% while reducing the required TFLOPs by up to 22x, thus balancing the tradeoff between sample and computational efficiency. These findings demonstrate that adaptive, evaluation-driven update schedules are more effective than relying on static, exhaustive update schedules.

1 Citations
0 Influential
19 Altmetric
96.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!