2601.07821v1 Jan 12, 2026 cs.RO

실패 인지 강화 학습: 자기 복구 기능을 갖춘 안정적인 오프라인-온라인 강화 학습을 통한 실제 환경 조작

Failure-Aware RL: Reliable Offline-to-Online Reinforcement Learning with Self-Recovery for Real-World Manipulation

Bo An
Bo An
Citations: 6
h-index: 1
Huanyu Li
Huanyu Li
Citations: 207
h-index: 6
Kun Lei
Kun Lei
Citations: 117
h-index: 4
Sheng Zang
Sheng Zang
Citations: 50
h-index: 4
Kaizhe Hu
Kaizhe Hu
Citations: 279
h-index: 8
Yongyuan Liang
Yongyuan Liang
Citations: 43
h-index: 2
Xiaoli Li
Xiaoli Li
Citations: 10
h-index: 2
Huazhe Xu
Huazhe Xu
Citations: 230
h-index: 6

심층 강화 학습 기반의 사후 학습 알고리즘은 일반화 능력, 정확성 및 견고성과 같은 특정 목표에 대한 로봇 모델의 성능을 향상시킬 수 있습니다. 그러나 실제 환경 탐색 과정에서 불가피하게 발생하는 개입이 필요한 실패(예: 로봇이 물을 쏟거나 깨지기 쉬운 유리를 파손하는 경우)는 이러한 접근 방식의 실질적인 적용을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 실제 환경에서의 강화 학습 중 실패를 최소화하는 새로운 패러다임인 Failure-Aware Offline-to-Online Reinforcement Learning (FARL)을 제안합니다. 우리는 인간의 개입을 필요로 하는 일반적인 실패 시나리오를 포함하는 벤치마크인 FailureBench를 구축하고, 월드 모델 기반 안전 평가기(safety critic)와 오프라인으로 학습된 복구 정책을 통합하여 온라인 탐색 중 발생하는 실패를 방지하는 알고리즘을 제안합니다. 광범위한 시뮬레이션 및 실제 실험 결과, FARL은 온라인 강화 학습 사후 학습 과정에서 IR 실패를 크게 줄이는 동시에 성능과 일반화 능력을 향상시키는 효과를 입증했습니다. FARL은 실제 환경에서의 강화 학습 사후 학습 과정에서 IR 실패를 73.1% 감소시키고, 평균적으로 성능을 11.3% 향상시켰습니다. 관련 동영상 및 코드는 https://failure-aware-rl.github.io 에서 확인할 수 있습니다.

Original Abstract

Post-training algorithms based on deep reinforcement learning can push the limits of robotic models for specific objectives, such as generalizability, accuracy, and robustness. However, Intervention-requiring Failures (IR Failures) (e.g., a robot spilling water or breaking fragile glass) during real-world exploration happen inevitably, hindering the practical deployment of such a paradigm. To tackle this, we introduce Failure-Aware Offline-to-Online Reinforcement Learning (FARL), a new paradigm minimizing failures during real-world reinforcement learning. We create FailureBench, a benchmark that incorporates common failure scenarios requiring human intervention, and propose an algorithm that integrates a world-model-based safety critic and a recovery policy trained offline to prevent failures during online exploration. Extensive simulation and real-world experiments demonstrate the effectiveness of FARL in significantly reducing IR Failures while improving performance and generalization during online reinforcement learning post-training. FARL reduces IR Failures by 73.1% while elevating performance by 11.3% on average during real-world RL post-training. Videos and code are available at https://failure-aware-rl.github.io.

6 Citations
1 Influential
4 Altmetric
28.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!