2603.06565v1 Mar 06, 2026 cs.AI

로직 기반 옵션을 활용한 심층 강화 학습 성능 향상

Boosting deep Reinforcement Learning using pretraining with Logical Options

Zihan Ye
Zihan Ye
Citations: 13
h-index: 2
Phil Chau
Phil Chau
Citations: 0
h-index: 0
Raban Emunds
Raban Emunds
Citations: 3
h-index: 1
Jannis Bluml
Jannis Bluml
Citations: 6
h-index: 1
Cedric Derstroff
Cedric Derstroff
Citations: 3
h-index: 1
Quentin Delfosse
Quentin Delfosse
Citations: 309
h-index: 11
O. Arenz
O. Arenz
Citations: 433
h-index: 11
Kristian Kersting
Kristian Kersting
Citations: 44
h-index: 4

심층 강화 학습 에이전트는 종종 초기 보상 신호를 과도하게 활용하여 목표와 일치하지 않는 방향으로 학습될 수 있습니다. 최근 몇몇 기호 기반 접근 방식은 희소한 목표를 부호화하고 일관된 계획을 수립하여 이러한 문제를 해결하려고 시도했습니다. 그러나 순수하게 기호 기반 아키텍처는 확장하기 어렵고 연속적인 환경에 적용하기 어렵습니다. 따라서, 본 연구에서는 인간의 새로운 기술 습득 능력에서 영감을 받은 하이브리드 접근 방식을 제안합니다. 제안하는 방법은 신경망 기반 강화 학습 에이전트에 기호 구조를 주입하면서, 심층 정책의 표현력을 유지하는 2단계 프레임워크를 사용합니다. '하이브리드 계층적 강화 학습 (H^2RL)'이라고 명명된 본 방법은 논리 기반 옵션을 활용한 사전 학습 전략을 도입하여 학습 정책을 단기적인 보상 루프에서 벗어나 목표 지향적인 행동으로 유도하고, 동시에 최종 정책을 표준적인 환경 상호작용을 통해 개선할 수 있도록 합니다. 실험 결과, 본 접근 방식은 장기적인 의사 결정 성능을 지속적으로 향상시키며, 강력한 신경망, 기호, 그리고 신경-기호 기반의 기존 방법들을 능가하는 에이전트를 생성함을 보여줍니다.

Original Abstract

Deep reinforcement learning agents are often misaligned, as they over-exploit early reward signals. Recently, several symbolic approaches have addressed these challenges by encoding sparse objectives along with aligned plans. However, purely symbolic architectures are complex to scale and difficult to apply to continuous settings. Hence, we propose a hybrid approach, inspired by humans' ability to acquire new skills. We use a two-stage framework that injects symbolic structure into neural-based reinforcement learning agents without sacrificing the expressivity of deep policies. Our method, called Hybrid Hierarchical RL (H^2RL), introduces a logical option-based pretraining strategy to steer the learning policy away from short-term reward loops and toward goal-directed behavior while allowing the final policy to be refined via standard environment interaction. Empirically, we show that this approach consistently improves long-horizon decision-making and yields agents that outperform strong neural, symbolic, and neuro-symbolic baselines.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!