다중 작업 강화 학습을 위한 확률적 성능 보장
Probabilistic Performance Guarantees for Multi-Task Reinforcement Learning
다중 작업 강화 학습은 여러 작업을 수행할 수 있는 일반화된 정책을 학습합니다. 최근 몇 년 동안 상당한 발전이 있었지만, 기존 방법들은 공식적인 성능 보장을 거의 제공하지 않는데, 이는 안전이 중요한 환경에서 정책을 배포할 때 필수적입니다. 본 논문에서는 학습 중에 보지 못한 작업들에 대한 다중 작업 정책의 성능에 대한 높은 신뢰도를 갖는 보장을 계산하는 방법을 제시합니다. 구체적으로, 우리는 새로운 일반화 경계를 도입합니다. 이 경계는 (i) 유한한 횟수의 시행을 통해 얻은 각 작업별 하한 신뢰 경계와 (ii) 유한한 횟수의 샘플링된 작업에서 얻은 작업 수준의 일반화를 결합하여, 동일한 임의의 알려지지 않은 분포에서 추출된 새로운 작업에 대한 높은 신뢰도의 보장을 제공합니다. 최첨단 다중 작업 강화 학습 방법들을 대상으로, 제시된 보장이 현실적인 샘플 크기에서 이론적으로 타당하고 유용한 정보를 제공한다는 것을 보여줍니다.
Multi-task reinforcement learning trains generalist policies that can execute multiple tasks. While recent years have seen significant progress, existing approaches rarely provide formal performance guarantees, which are indispensable when deploying policies in safety-critical settings. We present an approach for computing high-confidence guarantees on the performance of a multi-task policy on tasks not seen during training. Concretely, we introduce a new generalisation bound that composes (i) per-task lower confidence bounds from finitely many rollouts with (ii) task-level generalisation from finitely many sampled tasks, yielding a high-confidence guarantee for new tasks drawn from the same arbitrary and unknown distribution. Across state-of-the-art multi-task RL methods, we show that the guarantees are theoretically sound and informative at realistic sample sizes.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.