2604.26516v1 Apr 29, 2026 cs.LG

리야푸노프 기반 자기 정렬: 오프라인 안전 강화 학습을 위한 테스트 시간 적응

Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning

S. Han
S. Han
Citations: 49
h-index: 5
Jungwoo Lee
Jungwoo Lee
Citations: 38
h-index: 3
H. Kim
H. Kim
Citations: 0
h-index: 0

오프라인 강화 학습(RL) 에이전트는 종종 실제 환경과의 데이터 불일치로 인해 안전하지 않은 행동을 보이며, 배포 시 실패하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 재학습 없이 오프라인 안전 강화 학습에서 테스트 시간 적응을 가능하게 하는 트랜스포머 기반 프레임워크인 SAS (Self-Alignment for Safety)를 제안합니다. SAS의 핵심 메커니즘은 자기 정렬(self-alignment)입니다. 테스트 시간에, 사전 훈련된 에이전트는 여러 개의 가상 경로를 생성하고, 리야푸노프 조건을 만족하는 경로를 선택합니다. 이러한 실행 가능한 세그먼트는 컨텍스트 프롬프트로 재사용되어, 에이전트가 파라미터 업데이트를 피하면서 안전을 향한 행동을 재정렬하도록 돕습니다. SAS는 리야푸노프 기반 상상력을 제어 불변 프롬프트로 변환하며, 트랜스포머 아키텍처는 프롬프팅이 잠재적인 기술에 대한 베이지안 추론 역할을 하는 계층적 강화 학습으로 해석될 수 있습니다. Safety Gymnasium 및 MuJoCo 벤치마크에서 SAS는 비용과 실패율을 지속적으로 감소시키면서, 보상을 유지하거나 향상시킵니다.

Original Abstract

Offline reinforcement learning (RL) agents often fail when deployed, as the gap between training datasets and real environments leads to unsafe behavior. To address this, we present SAS (Self-Alignment for Safety), a transformer-based framework that enables test-time adaptation in offline safe RL without retraining. In SAS, the main mechanism is self-alignment: at test time, the pretrained agent generates several imagined trajectories and selects those satisfying the Lyapunov condition. These feasible segments are then recycled as in-context prompts, allowing the agent to realign its behavior toward safety while avoiding parameter updates. In effect, SAS turns Lyapunov-guided imagination into control-invariant prompts, and its transformer architecture admits a hierarchical RL interpretation where prompting functions as Bayesian inference over latent skills. Across Safety Gymnasium and MuJoCo benchmarks, SAS consistently reduces cost and failure while maintaining or improving return.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!