NSR-Boost: 산업용 레거시 모델을 위한 신경-기호 잔차 부스팅 프레임워크
NSR-Boost: A Neuro-Symbolic Residual Boosting Framework for Industrial Legacy Models
그래디언트 부스팅 결정 트리(GBDT)가 산업용 정형 데이터 애플리케이션을 지배하고 있지만, 고동시성 프로덕션 환경에서 레거시 모델을 업그레이드하는 것은 여전히 막대한 재학습 비용과 시스템 리스크에 직면해 있습니다. 이 문제를 해결하기 위해, 우리는 산업 시나리오를 위해 특별히 설계된 신경-기호 잔차 부스팅 프레임워크인 NSR-Boost를 제안합니다. 이 프레임워크의 핵심 장점은 "비침입적(non-intrusive)"이라는 데 있습니다. 이는 레거시 모델을 동결 모델로 취급하고, 예측이 실패하는 "어려운 영역(hard regions)"에 대해 표적 보수를 수행합니다. 이 프레임워크는 세 가지 주요 단계로 구성됩니다. 첫째, 잔차를 통해 어려운 영역을 식별합니다. 둘째, 대규모 언어 모델(LLM)을 사용하여 기호 코드 구조를 생성하고 베이지안 최적화를 사용하여 파라미터를 미세 조정함으로써 해석 가능한 전문가(experts)를 생성합니다. 마지막으로, 경량 집계기를 통해 전문가와 레거시 모델의 출력을 동적으로 통합합니다. 우리는 Qfin Holdings의 핵심 금융 리스크 관리 시스템 내에 NSR-Boost를 성공적으로 배포한 사례를 보고합니다. 이 프레임워크는 6개의 공개 데이터셋과 1개의 비공개 데이터셋에서 최신(SOTA) 기준 모델들을 크게 능가할 뿐만 아니라, 더 중요한 점은 실제 온라인 데이터에서 탁월한 성능 향상을 보여준다는 것입니다. 결론적으로, 이는 전통적인 모델이 놓친 롱테일 리스크를 효과적으로 포착하며, 산업계를 위한 안전하고 저비용의 진화적 패러다임을 제공합니다.
Although the Gradient Boosted Decision Trees (GBDTs) dominate industrial tabular applications, upgrading legacy models in high-concurrency production environments still faces prohibitive retraining costs and systemic risks. To address this problem, we present NSR-Boost, a neuro-symbolic residual boosting framework designed specifically for industrial scenarios. Its core advantage lies in being "non-intrusive". It treats the legacy model as a frozen model and performs targeted repairs on "hard regions" where predictions fail. The framework comprises three key stages: first, finding hard regions through residuals, then generating interpretable experts by generating symbolic code structures using Large Language Model (LLM) and fine-tuning parameters using Bayesian optimization, and finally dynamically integrating experts with legacy model output through a lightweight aggregator. We report on the successful deployment of NSR-Boost within the core financial risk control system at Qfin Holdings. This framework not only significantly outperforms state-of-the-art (SOTA) baselines across six public datasets and one private dataset, more importantly, shows excellent performance gains on real-world online data. In conclusion, it effectively captures long-tail risks missed by traditional models and offers a safe, low-cost evolutionary paradigm for industry.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.