E2E-REME: 경험 시뮬레이션 강화 학습 기반의 엔드투엔드 마이크로 서비스 자동 복구 시스템
E2E-REME: Towards End-to-End Microservices Auto-Remediation via Experience-Simulation Reinforcement Fine-Tuning
현대의 마이크로 서비스 시스템은 규모와 복잡성이 계속 증가하여, 그에 따른 장애 발생 빈도와 비용 또한 증가하고 있습니다. 최근 LLM 기반의 자동 복구 기술이 등장했지만, 대부분 텍스트 지시 사항을 실행 가능한 Ansible playbook으로 변환하고, 전문가가 작성한 프롬프트에 의존하기 때문에 런타임 지식 가이드가 부족하고, 대규모 범용 LLM에 의존하여 정확성과 효율성이 제한됩니다. 본 연구에서는 진단 보고서로부터 직접 실행 가능한 playbook을 생성하여 시스템 오류를 자동으로 복구하는 새로운 작업인 extit{End-to-End Microservice Remediation} (E2E-MR)을 제안합니다. 엄격한 평가를 위해, 마이크로 서비스 배포, 장애 주입, playbook 실행, 복구 후 검증을 자동화하는 벤치마크인 extit{MicroRemed}를 구축했습니다. 또한, 경험 시뮬레이션 강화 학습을 통해 학습된 엔드투엔드 자동 복구 모델인 extit{E2E-REME}를 제안합니다. 공개 및 산업용 마이크로 서비스 플랫폼에서의 실험 결과는 E2E-REME가 9개의 대표적인 LLM과 비교했을 때, 더 높은 정확성과 효율성을 달성함을 보여줍니다.
Contemporary microservice systems continue to grow in scale and complexity, leading to increasingly frequent and costly failures. While recent LLM-based auto-remediation approaches have emerged, they primarily translate textual instructions into executable Ansible playbooks and rely on expert-crafted prompts, lacking runtime knowledge guidance and depending on large-scale general-purpose LLMs, which limits their accuracy and efficiency. We introduce \textit{End-to-End Microservice Remediation} (E2E-MR), a new task that requires directly generating executable playbooks from diagnosis reports to autonomously restore faulty systems. To enable rigorous evaluation, we build \textit{MicroRemed}, a benchmark that automates microservice deployment, failure injection, playbook execution, and post-repair verification. We further propose \textit{E2E-REME}, an end-to-end auto-remediation model trained via experience-simulation reinforcement fine-tuning. Experiments on public and industrial microservice platforms, compared with nine representative LLMs, show that E2E-REME achieves superior accuracy and efficiency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.