RuntimeSlicer: 일반화된 통합 런타임 상태 표현을 통한 장애 관리
RuntimeSlicer: Towards Generalizable Unified Runtime State Representation for Failure Management
현대 소프트웨어 시스템은 이전과는 비교할 수 없을 정도로 큰 규모와 복잡성을 가지며, 효과적인 장애 관리는 매우 중요하지만 점점 더 어려워지고 있습니다. 메트릭, 추적 정보, 로그는 시스템 런타임 동작에 대한 상호 보완적인 정보를 제공하지만, 기존의 장애 관리 방법은 일반적으로 작업 지향적인 파이프라인에 의존하며, 이는 모달리티별 전처리, 표현 학습 및 다운스트림 모델을 긴밀하게 결합하여 작업 및 시스템 간의 일반화 능력을 제한합니다. 이러한 격차를 해소하기 위해, 우리는 일반화된 장애 관리를 위한 통합 런타임 상태 표현 모델인 RuntimeSlicer를 제안합니다. RuntimeSlicer는 작업에 독립적인 표현 모델을 사전 학습하여 메트릭, 추적 정보 및 로그를 단일하고 정렬된 시스템 상태 임베딩으로 직접 인코딩함으로써 시스템의 전체적인 런타임 상태를 캡처합니다. RuntimeSlicer를 학습하기 위해, 우리는 다양한 학습 데이터 소스를 통합하고, 모달리티 간의 정렬 및 시간적 일관성을 최적화하는 Unified Runtime Contrastive Learning을 도입합니다. 학습된 시스템 상태 임베딩을 기반으로, 우리는 런타임 상태를 비지도 방식으로 파티셔닝하고, 상태에 조건부로 적응할 수 있는 State-Aware Task-Oriented Tuning을 추가로 제안합니다. 이러한 설계는 모달리티별 인코더나 전처리 파이프라인을 재설계하지 않고도 경량의 작업 지향적인 모델을 통합 임베딩 위에 학습할 수 있도록 합니다. AIOps 2022 데이터 세트에 대한 초기 실험 결과는 시스템 상태 모델링 및 장애 관리 작업에 대한 RuntimeSlicer의 실현 가능성과 효과를 보여줍니다.
Modern software systems operate at unprecedented scale and complexity, where effective failure management is critical yet increasingly challenging. Metrics, traces, and logs provide complementary views of system runtime behavior, but existing failure management approaches typically rely on task-oriented pipelines that tightly couple modality-specific preprocessing, representation learning, and downstream models, resulting in limited generalization across tasks and systems. To fill this gap, we propose RuntimeSlicer, a unified runtime state representation model towards generalizable failure management. RuntimeSlicer pre-trains a task-agnostic representation model that directly encodes metrics, traces, and logs into a single, aligned system-state embedding capturing the holistic runtime condition of the system. To train RuntimeSlicer, we introduce Unified Runtime Contrastive Learning, which integrates heterogeneous training data sources and optimizes complementary objectives for cross-modality alignment and temporal consistency. Building upon the learned system-state embeddings, we further propose State-Aware Task-Oriented Tuning, which performs unsupervised partitioning of runtime states and enables state-conditioned adaptation for downstream tasks. This design allows lightweight task-oriented models to be trained on top of the unified embedding without redesigning modality-specific encoders or preprocessing pipelines. Preliminary experiments on the AIOps 2022 dataset demonstrate the feasibility and effectiveness of RuntimeSlicer for system state modeling and failure management tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.