행동 트리에서의 강화학습을 위한 진행 제약
Progress Constraints for Reinforcement Learning in Behavior Trees
행동 트리(BT)는 의사결정을 위한 구조적이고 반응적인 프레임워크를 제공하며, 환경 조건에 따라 하위 제어기 간의 전환을 수행하는 데 흔히 사용된다. 반면, 강화학습(RL)은 준최적의 제어기를 학습할 수 있지만, 희소 보상, 안전한 탐색, 장기적 신용 할당 문제로 어려움을 겪기도 한다. BT와 RL을 결합하면 상호 보완적인 이점을 얻을 수 있는데, BT 설계는 구조화된 도메인 지식을 반영하여 RL 훈련을 단순화할 수 있고, RL은 BT 내의 제어기를 자동으로 학습할 수 있게 한다. 그러나 BT와 RL의 단순한 통합은 일부 제어기가 다른 제어기를 방해하거나 이전에 달성한 하위 목표를 무효화하여 전체적인 성능을 저하시킬 수 있다. 이를 해결하기 위해 우리는 실현 가능성 추정기가 이론적 BT 수렴 결과를 바탕으로 허용된 행동 집합을 제한하는 새로운 메커니즘인 '진행 제약'을 제안한다. 2D 개념 증명 및 고정밀 창고 환경에서의 실증적 평가 결과, 기존의 BT-RL 통합 방식에 비해 성능, 샘플 효율성, 제약 만족도가 향상되었음을 입증하였다.
Behavior Trees (BTs) provide a structured and reactive framework for decision-making, commonly used to switch between sub-controllers based on environmental conditions. Reinforcement Learning (RL), on the other hand, can learn near-optimal controllers but sometimes struggles with sparse rewards, safe exploration, and long-horizon credit assignment. Combining BTs with RL has the potential for mutual benefit: a BT design encodes structured domain knowledge that can simplify RL training, while RL enables automatic learning of the controllers within BTs. However, naive integration of BTs and RL can lead to some controllers counteracting other controllers, possibly undoing previously achieved subgoals, thereby degrading the overall performance. To address this, we propose progress constraints, a novel mechanism where feasibility estimators constrain the allowed action set based on theoretical BT convergence results. Empirical evaluations in a 2D proof-of-concept and a high-fidelity warehouse environment demonstrate improved performance, sample efficiency, and constraint satisfaction, compared to prior methods of BT-RL integration.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.