TingIS: 기업 규모의 노이즈가 많은 고객 문제로부터 실시간 위험 이벤트 발견
TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale
대규모 클라우드 기반 서비스에서 기술적인 이상 현상을 실시간으로 감지하고 해결하는 것은 매우 중요합니다. 왜냐하면 몇 분의 다운타임이라도 막대한 재정적 손실과 사용자 신뢰도 하락으로 이어질 수 있기 때문입니다. 고객 문제는 모니터링 시스템에서 놓칠 수 있는 위험을 발견하는 데 중요한 신호 역할을 하지만, 다양한 사업 부문의 극심한 노이즈, 높은 처리량, 그리고 의미적 복잡성으로 인해 이 데이터로부터 실행 가능한 정보를 추출하는 것은 어려운 과제입니다. 본 논문에서는 기업 수준의 문제 발견을 위해 설계된 엔드 투 엔드 시스템인 TingIS를 소개합니다. TingIS의 핵심은 효율적인 인덱싱 기술과 대규모 언어 모델(LLM)을 결합하여 이벤트 병합에 대한 정보에 입각한 결정을 내리는 다단계 이벤트 연결 엔진입니다. 이를 통해 다양한 사용자 설명으로부터 실행 가능한 문제를 안정적으로 추출할 수 있습니다. 이 엔진은 정확한 사업 부문 할당을 위한 캐스케이드 라우팅 메커니즘과 도메인 지식, 통계 패턴, 그리고 행동 필터링을 통합하는 다차원 노이즈 감소 파이프라인으로 보완됩니다. TingIS는 초당 2,000건 이상의 메시지를 처리하고 하루에 30만 건의 메시지를 처리하는 운영 환경에 배포되었으며, P90 알림 지연 시간은 3.5분, 고 우선순위 문제에 대한 발견율은 95%를 달성합니다. 실제 데이터를 기반으로 구축된 벤치마크 결과, TingIS는 라우팅 정확도, 클러스터링 품질, 그리고 신호 대 잡음비 측면에서 기존 방법보다 훨씬 우수한 성능을 보였습니다.
Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.