2604.03512v1 Apr 03, 2026 cs.AI

ActionNex: 클라우드 환경을 위한 가상 장애 관리 시스템

ActionNex: A Virtual Outage Manager for Cloud

Xuchao Zhang
Xuchao Zhang
Citations: 490
h-index: 11
Chetan Bansal
Chetan Bansal
Citations: 667
h-index: 14
Hao Hu
Hao Hu
Citations: 2
h-index: 1
Zhenfeng Lin
Zhenfeng Lin
Citations: 19
h-index: 3
Mingyuan Hao
Mingyuan Hao
Citations: 0
h-index: 0
Ryan Zhang
Ryan Zhang
Citations: 228
h-index: 3
Junhao Li
Junhao Li
Citations: 1
h-index: 1
Ze Li
Ze Li
Citations: 0
h-index: 0
Oleg Kulygin
Oleg Kulygin
Citations: 0
h-index: 0
H. Tuna
H. Tuna
Citations: 0
h-index: 0
Murali Chintalapati
Murali Chintalapati
Citations: 1,621
h-index: 13
Sheila Jiang
Sheila Jiang
Citations: 38
h-index: 3
Salman Zafar
Salman Zafar
Citations: 17
h-index: 2
Angie Anderson
Angie Anderson
Citations: 0
h-index: 0

대규모 클라우드 운영에서의 장애 관리는 여전히 수동적인 방식으로 이루어지며, 신속한 문제 파악, 여러 팀 간의 협업, 그리고 부분적인 정보만으로 경험에 의존한 의사 결정을 필요로 합니다. 본 논문에서는 **ActionNex**라는, 실용적인 수준의 에이전트 기반 시스템을 소개합니다. ActionNex는 실시간 업데이트, 지식 추출, 그리고 역할 및 단계에 따른 최적의 다음 행동 추천을 포함한, 전체적인 장애 지원 기능을 제공합니다. ActionNex는 다양한 운영 데이터(예: 장애 정보, 텔레메트리, 인간의 커뮤니케이션)를 수집하고 이를 중요한 이벤트로 압축하여 의미 있는 상태 변화를 나타냅니다. 이 인식 레이어는 계층적 메모리 서브시스템과 결합됩니다. 이 서브시스템은 플레이북 및 과거 실행 기록에서 추출된 Key-Condition-Action (KCA) 지식, 이전 장애의 에피소드 메모리, 그리고 현재 상황에 대한 작업 메모리로 구성됩니다. 추론 에이전트는 현재의 중요한 이벤트와 선행 조건을 연결하고, 관련 메모리를 검색하여 실행 가능한 추천 사항을 생성합니다. 실행된 인간의 행동은 암시적인 피드백 신호로 작용하여 인간과 에이전트가 협력하는 하이브리드 시스템에서 지속적인 자체 개선을 가능하게 합니다. 저희는 실제 Azure 장애 사례(800만 토큰, 4,000개의 중요한 이벤트)를 사용하여 두 가지 상호 보완적인 실제 행동 집합으로 ActionNex를 평가했습니다. 그 결과, 71.4%의 정밀도와 52.8~54.8%의 재현율을 달성했습니다. 이 시스템은 실제 환경에서 시험 운영되었으며, 긍정적인 초기 피드백을 받았습니다.

Original Abstract

Outage management in large-scale cloud operations remains heavily manual, requiring rapid triage, cross-team coordination, and experience-driven decisions under partial observability. We present \textbf{ActionNex}, a production-grade agentic system that supports end-to-end outage assistance, including real-time updates, knowledge distillation, and role- and stage-conditioned next-best action recommendations. ActionNex ingests multimodal operational signals (e.g., outage content, telemetry, and human communications) and compresses them into critical events that represent meaningful state transitions. It couples this perception layer with a hierarchical memory subsystem: long-term Key-Condition-Action (KCA) knowledge distilled from playbooks and historical executions, episodic memory of prior outages, and working memory of the live context. A reasoning agent aligns current critical events to preconditions, retrieves relevant memories, and generates actionable recommendations; executed human actions serve as an implicit feedback signal to enable continual self-evolution in a human-agent hybrid system. We evaluate ActionNex on eight real Azure outages (8M tokens, 4,000 critical events) using two complementary ground-truth action sets, achieving 71.4\% precision and 52.8-54.8\% recall. The system has been piloted in production and has received positive early feedback.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!