2603.21495v1 Mar 23, 2026 cs.SE

RuntimeSlicer: 일반화된 통합 런타임 상태 표현을 통한 장애 관리

RuntimeSlicer: Towards Generalizable Unified Runtime State Representation for Failure Management

Gong Zhang
Gong Zhang
Citations: 47
h-index: 4
Lingzhe Zhang
Lingzhe Zhang
Citations: 37
h-index: 3
Tong Jia
Tong Jia
Citations: 324
h-index: 10
Chiming Duan
Chiming Duan
Citations: 217
h-index: 9
Minghua He
Minghua He
Citations: 75
h-index: 5
Ying Li
Ying Li
Citations: 361
h-index: 11
Weijie Hong
Weijie Hong
Citations: 24
h-index: 3
Mingyuan Wang
Mingyuan Wang
Citations: 32
h-index: 2
Rongqian Wang
Rongqian Wang
Citations: 2
h-index: 1
Xi Peng
Xi Peng
Citations: 6
h-index: 1
Meiling Wang
Meiling Wang
Citations: 41
h-index: 1
Renhai Chen
Renhai Chen
Citations: 48
h-index: 4

현대 소프트웨어 시스템은 이전과는 비교할 수 없을 정도로 큰 규모와 복잡성을 가지며, 효과적인 장애 관리는 매우 중요하지만 점점 더 어려워지고 있습니다. 메트릭, 추적 정보, 로그는 시스템 런타임 동작에 대한 상호 보완적인 정보를 제공하지만, 기존의 장애 관리 방법은 일반적으로 작업 지향적인 파이프라인에 의존하며, 이는 모달리티별 전처리, 표현 학습 및 다운스트림 모델을 긴밀하게 결합하여 작업 및 시스템 간의 일반화 능력을 제한합니다. 이러한 격차를 해소하기 위해, 우리는 일반화된 장애 관리를 위한 통합 런타임 상태 표현 모델인 RuntimeSlicer를 제안합니다. RuntimeSlicer는 작업에 독립적인 표현 모델을 사전 학습하여 메트릭, 추적 정보 및 로그를 단일하고 정렬된 시스템 상태 임베딩으로 직접 인코딩함으로써 시스템의 전체적인 런타임 상태를 캡처합니다. RuntimeSlicer를 학습하기 위해, 우리는 다양한 학습 데이터 소스를 통합하고, 모달리티 간의 정렬 및 시간적 일관성을 최적화하는 Unified Runtime Contrastive Learning을 도입합니다. 학습된 시스템 상태 임베딩을 기반으로, 우리는 런타임 상태를 비지도 방식으로 파티셔닝하고, 상태에 조건부로 적응할 수 있는 State-Aware Task-Oriented Tuning을 추가로 제안합니다. 이러한 설계는 모달리티별 인코더나 전처리 파이프라인을 재설계하지 않고도 경량의 작업 지향적인 모델을 통합 임베딩 위에 학습할 수 있도록 합니다. AIOps 2022 데이터 세트에 대한 초기 실험 결과는 시스템 상태 모델링 및 장애 관리 작업에 대한 RuntimeSlicer의 실현 가능성과 효과를 보여줍니다.

Original Abstract

Modern software systems operate at unprecedented scale and complexity, where effective failure management is critical yet increasingly challenging. Metrics, traces, and logs provide complementary views of system runtime behavior, but existing failure management approaches typically rely on task-oriented pipelines that tightly couple modality-specific preprocessing, representation learning, and downstream models, resulting in limited generalization across tasks and systems. To fill this gap, we propose RuntimeSlicer, a unified runtime state representation model towards generalizable failure management. RuntimeSlicer pre-trains a task-agnostic representation model that directly encodes metrics, traces, and logs into a single, aligned system-state embedding capturing the holistic runtime condition of the system. To train RuntimeSlicer, we introduce Unified Runtime Contrastive Learning, which integrates heterogeneous training data sources and optimizes complementary objectives for cross-modality alignment and temporal consistency. Building upon the learned system-state embeddings, we further propose State-Aware Task-Oriented Tuning, which performs unsupervised partitioning of runtime states and enables state-conditioned adaptation for downstream tasks. This design allows lightweight task-oriented models to be trained on top of the unified embedding without redesigning modality-specific encoders or preprocessing pipelines. Preliminary experiments on the AIOps 2022 dataset demonstrate the feasibility and effectiveness of RuntimeSlicer for system state modeling and failure management tasks.

1 Citations
0 Influential
5.5 Altmetric
28.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!