2601.08418v1 Jan 13, 2026 cs.LG

Taxon: 의미적으로 정렬된 LLM 전문가 지침을 활용한 계층적 세금 코드 예측

Taxon: Hierarchical Tax Code Prediction with Semantically Aligned LLM Expert Guidance

Annika Singh
Annika Singh
Citations: 0
h-index: 0
Jihang Li
Jihang Li
Citations: 2
h-index: 1
Qing Liu
Qing Liu
Citations: 6
h-index: 1
Zulong Chen
Zulong Chen
Citations: 2
h-index: 1
Jing Wang
Jing Wang
Citations: 37
h-index: 2
Chuanfei Xu
Chuanfei Xu
Citations: 1
h-index: 1
Zeyi Wen
Zeyi Wen
Citations: 23
h-index: 2

세금 코드 예측은 대규모 전자 상거래 플랫폼의 송장 자동화 및 규정 준수 관리에 매우 중요한 과제이지만, 아직 충분히 연구되지 않았습니다. 각 제품은 국가 표준에 의해 정의된 다단계 분류 체계 내의 특정 노드에 정확하게 매핑되어야 하며, 오류는 재정적 불일치 및 규제 위험을 초래합니다. 본 논문에서는 의미적으로 정렬되고 전문가의 지침을 활용하는 계층적 세금 코드 예측 프레임워크인 Taxon을 제시합니다. Taxon은 (i) 다양한 모달리티의 특징을 분류 체계의 각 수준에 따라 적응적으로 분배하는 특징 게이팅 혼합 전문가 아키텍처와 (ii) 제품 제목과 공식 세금 정의 간의 일관성을 검증하기 위해 대규모 언어 모델에서 추출한 의미 일관성 모델을 통합합니다. 실제 비즈니스 기록의 노이즈가 많은 감독 문제를 해결하기 위해, 우리는 구조적 및 의미적 감독을 제공하기 위해 큐레이션된 세금 데이터베이스, 송장 검증 로그 및 판매자 등록 데이터를 결합하는 다중 소스 학습 파이프라인을 설계했습니다. 독점 데이터셋인 TaxCode와 공개 벤치마크에 대한 광범위한 실험 결과, Taxon은 최첨단 성능을 달성했으며, 강력한 기준 모델보다 뛰어난 성능을 보였습니다. 또한, 추가적인 전체 계층적 경로 재구성 절차는 구조적 일관성을 크게 향상시켜 가장 높은 F1 점수를 달성했습니다. Taxon은 Alibaba의 세금 서비스 시스템에 실제로 배포되어 있으며, 평균적으로 하루에 50만 건 이상의 세금 코드 쿼리를 처리하며, 비즈니스 이벤트 기간 동안에는 최대 5백만 건 이상의 요청을 처리하고, 정확도, 해석 가능성 및 견고성을 향상시켰습니다.

Original Abstract

Tax code prediction is a crucial yet underexplored task in automating invoicing and compliance management for large-scale e-commerce platforms. Each product must be accurately mapped to a node within a multi-level taxonomic hierarchy defined by national standards, where errors lead to financial inconsistencies and regulatory risks. This paper presents Taxon, a semantically aligned and expert-guided framework for hierarchical tax code prediction. Taxon integrates (i) a feature-gating mixture-of-experts architecture that adaptively routes multi-modal features across taxonomy levels, and (ii) a semantic consistency model distilled from large language models acting as domain experts to verify alignment between product titles and official tax definitions. To address noisy supervision in real business records, we design a multi-source training pipeline that combines curated tax databases, invoice validation logs, and merchant registration data to provide both structural and semantic supervision. Extensive experiments on the proprietary TaxCode dataset and public benchmarks demonstrate that Taxon achieves state-of-the-art performance, outperforming strong baselines. Further, an additional full hierarchical paths reconstruction procedure significantly improves structural consistency, yielding the highest overall F1 scores. Taxon has been deployed in production within Alibaba's tax service system, handling an average of over 500,000 tax code queries per day and reaching peak volumes above five million requests during business event with improved accuracy, interpretability, and robustness.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!