NSR-Boost: 산업용 레거시 모델을 위한 신경-기호 잔차 부스팅 프레임워크
NSR-Boost: A Neuro-Symbolic Residual Boosting Framework for Industrial Legacy Models
그라디언트 부스팅 결정 트리(GBDT)가 산업용 표 형식 데이터 분석에서 널리 사용되지만, 고병행성 생산 환경에서 기존 모델을 업그레이드하는 것은 여전히 높은 재훈련 비용과 시스템적 위험을 수반합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 산업 환경에 특화된 신경-기호 잔차 부스팅 프레임워크인 NSR-Boost를 제안합니다. NSR-Boost의 핵심 장점은 '비침투적'이라는 것입니다. 즉, 기존 모델을 '동결된' 모델로 취급하고, 예측 오류가 발생하는 '어려운 영역'에 대한 표적 수정을 수행합니다. 이 프레임워크는 세 가지 주요 단계로 구성됩니다. 첫째, 잔차를 통해 어려운 영역을 식별합니다. 둘째, 대규모 언어 모델(LLM)을 사용하여 해석 가능한 전문가를 생성하고, 베이지안 최적화를 통해 파라미터를 조정합니다. 셋째, 경량화된 집계기를 통해 전문가를 기존 모델 출력과 동적으로 통합합니다. 실험 결과는 NSR-Boost가 6개의 공개 데이터셋과 1개의 비공개 데이터셋에서 최첨단(SOTA) 모델보다 훨씬 뛰어난 성능을 보임을 입증합니다. 더욱 중요하게는, NSR-Boost를 Qfin Holdings의 핵심 금융 위험 관리 시스템에 성공적으로 배포했으며, 실제 온라인 트래픽에 대한 실험 결과에서 상당한 성능 향상과 낮은 오류율을 확인했습니다. 결론적으로, NSR-Boost는 기존 모델이 놓치는 장기적인 위험을 효과적으로 포착하며, 산업 분야에 안전하고 저렴한 진화적 패러다임을 제공합니다.
Although the Gradient Boosted Decision Trees (GBDTs) dominate industrial tabular applications, upgrading legacy models in high-concurrency production environments still faces prohibitive retraining costs and systemic risks. To address this problem, we present NSR-Boost, a neuro-symbolic residual boosting framework designed specifically for industrial scenarios. Its core advantage lies in being "non-intrusive". It treats the legacy model as a frozen model and performs targeted repairs on "hard regions" where predictions fail. The framework comprises three key stages: First, finding hard regions through residuals, then generating interpretable experts by generating symbolic code structures using Large Language Model (LLM) and fine-tuning parameters using Bayesian optimization, and finally dynamically integrating experts with legacy model output through a lightweight aggregator. Experimental results demonstrate that the framework not only significantly outperforms state-of-the-art (SOTA) baselines across six public datasets and one private dataset. More importantly, we report the successful deployment of NSR-Boost within the core financial risk control system of Qfin Holdings, where empirical results on real-world online traffic exhibit superior performance improvements and a significant reduction in the bad rate. In conclusion, it effectively captures long-tail risks missed by traditional models and offers a safe, low-cost evolutionary paradigm for industry.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.