2601.07821v1 Jan 12, 2026 cs.RO

실패 인지 강화 학습: 자기 복구 기능을 갖춘 안정적인 오프라인-온라인 강화 학습을 통한 실제 환경 조작

Failure-Aware RL: Reliable Offline-to-Online Reinforcement Learning with Self-Recovery for Real-World Manipulation

Bo An
Bo An
Citations: 0
h-index: 0
Huanyu Li
Huanyu Li
Citations: 137
h-index: 5
Kun Lei
Kun Lei
Citations: 79
h-index: 3
Sheng Zang
Sheng Zang
Citations: 23
h-index: 2
Kaizhe Hu
Kaizhe Hu
Citations: 227
h-index: 7
Yongyuan Liang
Yongyuan Liang
Citations: 28
h-index: 1
Xiaoli Li
Xiaoli Li
Citations: 3
h-index: 1
Huazhe Xu
Huazhe Xu
Citations: 191
h-index: 5

심층 강화 학습 기반의 사후 학습 알고리즘은 일반화 능력, 정확성 및 견고성과 같은 특정 목표에 대한 로봇 모델의 성능을 향상시킬 수 있습니다. 그러나 실제 환경 탐색 과정에서 불가피하게 발생하는 개입이 필요한 실패(예: 로봇이 물을 쏟거나 깨지기 쉬운 유리를 파손하는 경우)는 이러한 접근 방식의 실질적인 적용을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 실제 환경에서의 강화 학습 중 실패를 최소화하는 새로운 패러다임인 Failure-Aware Offline-to-Online Reinforcement Learning (FARL)을 제안합니다. 우리는 인간의 개입을 필요로 하는 일반적인 실패 시나리오를 포함하는 벤치마크인 FailureBench를 구축하고, 월드 모델 기반 안전 평가기(safety critic)와 오프라인으로 학습된 복구 정책을 통합하여 온라인 탐색 중 발생하는 실패를 방지하는 알고리즘을 제안합니다. 광범위한 시뮬레이션 및 실제 실험 결과, FARL은 온라인 강화 학습 사후 학습 과정에서 IR 실패를 크게 줄이는 동시에 성능과 일반화 능력을 향상시키는 효과를 입증했습니다. FARL은 실제 환경에서의 강화 학습 사후 학습 과정에서 IR 실패를 73.1% 감소시키고, 평균적으로 성능을 11.3% 향상시켰습니다. 관련 동영상 및 코드는 https://failure-aware-rl.github.io 에서 확인할 수 있습니다.

Original Abstract

Post-training algorithms based on deep reinforcement learning can push the limits of robotic models for specific objectives, such as generalizability, accuracy, and robustness. However, Intervention-requiring Failures (IR Failures) (e.g., a robot spilling water or breaking fragile glass) during real-world exploration happen inevitably, hindering the practical deployment of such a paradigm. To tackle this, we introduce Failure-Aware Offline-to-Online Reinforcement Learning (FARL), a new paradigm minimizing failures during real-world reinforcement learning. We create FailureBench, a benchmark that incorporates common failure scenarios requiring human intervention, and propose an algorithm that integrates a world-model-based safety critic and a recovery policy trained offline to prevent failures during online exploration. Extensive simulation and real-world experiments demonstrate the effectiveness of FARL in significantly reducing IR Failures while improving performance and generalization during online reinforcement learning post-training. FARL reduces IR Failures by 73.1% while elevating performance by 11.3% on average during real-world RL post-training. Videos and code are available at https://failure-aware-rl.github.io.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!