현실적인 배포 환경에서의 그래프 이상 탐지: 성능 벤치마킹
GAD in the Wild: Benchmarking Graph Anomaly Detection under Realistic Deployment Challenges
그래프 이상 탐지(GAD)는 그래프 머신러닝 분야에서 중요한 연구 주제이며, 금융 사기 탐지 및 소셜 플랫폼 관리 등 다양한 분야에서 활용됩니다. 그러나 기존의 GAD 벤치마크는 대부분 소규모의 정제된 그래프를 사용하며, 이상 비율이 비교적 균형 잡힌 경우가 많아, 학문적인 평가와 실제 배포 환경 간의 격차가 큽니다. 이러한 격차를 해소하기 위해, 우리는 세 가지 실제 배포와 관련된 문제(백만 규모 그래프, 극단적인 이상치 희소성, 누락된 노드 속성)에 대한 GAD 모델의 성능을 체계적으로 평가하는 다차원 벤치마크를 제시합니다. 우리는 다섯 가지 다양한 그래프, 그 중 두 가지는 370만 개 이상의 노드를 가진 산업 규모 데이터셋을 기반으로, 여러 개의 제어된 벤치마크 변형을 만들었습니다. 우리는 아홉 가지 대표적인 GAD 모델에 대한 광범위한 평가를 통해 세 가지 주요 한계를 발견했습니다. (1) 대부분의 GNN 기반 방법은 과도한 메모리 요구량으로 인해 백만 노드 규모의 그래프로 확장하는 데 어려움을 겪습니다. (2) 현실적인 이상 비율(예: 0.1%)에서 탐지 성능이 크게 저하되어, 종종 재현율이 0으로 나타납니다. (3) 재구축 기반 모델은 속성 대체 전략에 매우 민감합니다. 우리의 연구 결과는 실험실 환경에서의 우수한 성능이 실제 운영 환경에서도 보장되지 않는다는 것을 시사합니다. 우리는 이 벤치마크와 경험적 평가를 공개하여, 실제 환경에서 접할 수 있는 대규모, 불완전한 그래프를 위한 견고하고 확장 가능한 GAD 시스템 개발을 촉진하고자 합니다. 관련 코드는 https://anonymous.4open.science/r/Benchmark_GAD-E7A3 에서 확인할 수 있습니다.
Graph Anomaly Detection (GAD) is a critical task in graph machine learning with vital applications in financial fraud detection and social platform governance. However, existing GAD benchmarks are often restricted to small-scale, curated graphs with relatively balanced anomaly ratios, leaving a substantial gap between academic evaluation and real-world deployment. To bridge this gap, we present a multi-dimensional benchmark that systematically evaluates GAD models under three deployment-relevant challenges: million-scale graphs, extreme anomaly scarcity, and missing node attributes. We derive a family of controlled benchmark variants from five diverse graphs, including two native industrial-scale datasets with over 3.7 million nodes. Our extensive evaluation of nine representative GAD models reveals three major limitations: (1) most GNN-based methods fail to scale to million-node graphs due to prohibitive memory requirements; (2) detection performance drops sharply under realistic anomaly ratios (e.g., 0.1\%), often resulting in zero recall; and (3) reconstruction-based models are highly sensitive to attribute imputation strategies. Our findings suggest that strong performance in laboratory settings does not guarantee robustness in production environments. We release this benchmark and empirical evaluation as a diagnostic testbed to promote the development of robust and scalable GAD systems for large-scale, imperfect graphs encountered in practice. Code is available at https://anonymous.4open.science/r/Benchmark_GAD-E7A3.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.