에너지 효율적인 강화 학습을 이용한 인프라 운영 및 유지보수를 위한 로봇 조작: 관절 구조 부품
Energy-Aware Reinforcement Learning for Robotic Manipulation of Articulated Components in Infrastructure Operation and Maintenance
지능형 토목 인프라 및 스마트 도시의 발전과 함께, 운영 및 유지보수(O&M)는 접근 문, 서비스 서랍, 파이프라인 밸브 등 관절 구조 부품을 안전하고 효율적이며 에너지 효율적으로 조작하는 로봇 기술을 필요로 합니다. 그러나 기존의 로봇 접근 방식은 주로 잡기 동작에 집중하거나 특정 객체에 특화된 관절 조작을 목표로 하며, 다중 목적 최적화에 명시적인 작동 에너지를 통합하는 경우는 드물어, 실제 O&M 환경에서의 확장성과 장기적인 적용 가능성이 제한됩니다. 따라서 본 논문에서는 지능형 인프라 O&M에서 로봇 조작을 위한 관절 구조에 독립적이고 에너지 효율적인 강화 학습 프레임워크를 제안합니다. 제안하는 방법은 파트 가이드 3D 인식, 가중치 점 샘플링, 그리고 PointNet 기반 인코딩을 결합하여 다양한 관절 구조 객체에 대한 일반화가 가능한 간결한 기하학적 표현을 얻습니다. 조작은 작동 에너지를 명시적으로 모델링하고 라그랑주 기반의 제약된 Soft Actor-Critic 방식을 통해 규제하는 제약된 마르코프 결정 프로세스(CMDP)로 공식화됩니다. 이 정책은 CMDP 프레임워크 하에서 엔드 투 엔드로 학습되며, 이를 통해 관절 구조 객체를 효과적으로 조작하면서 장기적인 에너지 예산을 충족할 수 있습니다. 대표적인 O&M 작업에 대한 실험 결과, 에너지 소비량이 16~30% 감소하고, 성공에 필요한 단계 수가 16~32% 줄어들었으며, 일관되게 높은 성공률을 보였습니다. 이는 인프라 O&M 조작을 위한 확장 가능하고 지속 가능한 솔루션을 제공함을 나타냅니다.
With the growth of intelligent civil infrastructure and smart cities, operation and maintenance (O&M) increasingly requires safe, efficient, and energy-conscious robotic manipulation of articulated components, including access doors, service drawers, and pipeline valves. However, existing robotic approaches either focus primarily on grasping or target object-specific articulated manipulation, and they rarely incorporate explicit actuation energy into multi-objective optimisation, which limits their scalability and suitability for long-term deployment in real O&M settings. Therefore, this paper proposes an articulation-agnostic and energy-aware reinforcement learning framework for robotic manipulation in intelligent infrastructure O&M. The method combines part-guided 3D perception, weighted point sampling, and PointNet-based encoding to obtain a compact geometric representation that generalises across heterogeneous articulated objects. Manipulation is formulated as a Constrained Markov Decision Process (CMDP), in which actuation energy is explicitly modelled and regulated via a Lagrangian-based constrained Soft Actor-Critic scheme. The policy is trained end-to-end under this CMDP formulation, enabling effective articulated-object operation while satisfying a long-horizon energy budget. Experiments on representative O&M tasks demonstrate 16%-30% reductions in energy consumption, 16%-32% fewer steps to success, and consistently high success rates, indicating a scalable and sustainable solution for infrastructure O&M manipulation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.