강화 학습에서의 상태 기반 안전성을 위한 증강 라그랑주 승수 네트워크
Augmented Lagrangian Multiplier Network for State-wise Safety in Reinforcement Learning
안전은 실제 환경에서의 강화 학습(RL)에서 가장 중요한 과제 중 하나입니다. 안전 요구사항을 상태별 제약 조건으로 정의하는 방식이 널리 사용되고 있습니다. 라그랑주 방법을 사용하여 상태별 제약 조건을 처리하려면 각 상태에 대한 별도의 승수 값이 필요하며, 이를 위해 신경망을 사용하여 승수 네트워크를 구축해야 합니다. 그러나 승수 네트워크에 표준적인 이중 경사 상승법을 적용하면 심각한 학습 불안정성이 발생합니다. 이는 이중 경사 상승법의 고유한 불안정성이 네트워크의 일반화 능력으로 인해 악화되기 때문이며, 지역적인 과도 현상과 지연된 업데이트가 인접한 상태로 전파되어 정책의 변동성을 더욱 증폭시킵니다. 기존의 안정화 기법은 스칼라 승수에 대해 설계되었으며, 상태에 따라 변하는 승수 네트워크에는 적합하지 않습니다. 이러한 문제를 해결하기 위해, 우리는 상태별 승수의 안정적인 학습을 위한 증강 라그랑주 승수 네트워크(ALaM) 프레임워크를 제안합니다. ALaM은 두 가지 주요 구성 요소로 구성됩니다. 첫째, 증강 라그랑주 함수에 이차적인 페널티를 도입하여 지연된 승수 업데이트를 보상하고 최적점 근처의 지역적인 볼록성을 확립함으로써 정책의 변동성을 완화합니다. 둘째, 승수 네트워크는 이중 목표에 대한 지도 학습 방식으로 훈련되어 학습의 안정성을 높이고 수렴을 촉진합니다. 이론적으로, ALaM은 승수의 수렴을 보장하며, 따라서 제약 조건이 있는 문제의 최적 정책을 복구할 수 있음을 증명합니다. 이 프레임워크를 기반으로, 우리는 ALaM을 소프트 액터-크리틱(SAC) 알고리즘과 통합하여 SAC-ALaM 알고리즘을 개발했습니다. 실험 결과, SAC-ALaM은 최첨단 안전 강화 학습 방법보다 안전성과 보상 측면에서 우수한 성능을 보이며, 또한 학습의 안정성을 높이고 위험 식별을 위한 잘 보정된 승수 값을 학습하는 것을 보여줍니다.
Safety is a primary challenge in real-world reinforcement learning (RL). Formulating safety requirements as state-wise constraints has become a prominent paradigm. Handling state-wise constraints with the Lagrangian method requires a distinct multiplier for every state, necessitating neural networks to approximate them as a multiplier network. However, applying standard dual gradient ascent to multiplier networks induces severe training oscillations. This is because the inherent instability of dual ascent is exacerbated by network generalization -- local overshoots and delayed updates propagate to adjacent states, further amplifying policy fluctuations. Existing stabilization techniques are designed for scalar multipliers, which are inadequate for state-dependent multiplier networks. To address this challenge, we propose an augmented Lagrangian multiplier network (ALaM) framework for stable learning of state-wise multipliers. ALaM consists of two key components. First, a quadratic penalty is introduced into the augmented Lagrangian to compensate for delayed multiplier updates and establish the local convexity near the optimum, thereby mitigating policy oscillations. Second, the multiplier network is trained via supervised regression toward a dual target, which stabilizes training and promotes convergence. Theoretically, we show that ALaM guarantees multiplier convergence and thus recovers the optimal policy of the constrained problem. Building on this framework, we integrate soft actor-critic (SAC) with ALaM to develop the SAC-ALaM algorithm. Experiments demonstrate that SAC-ALaM outperforms state-of-the-art safe RL baselines in both safety and return, while also stabilizing training dynamics and learning well-calibrated multipliers for risk identification.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.