2605.01745v1 May 03, 2026 cs.AI

NH-CROP: 비용 불확실성 하에서의 규제 언어 데이터 자산에 대한 견고한 가격 결정 방법

NH-CROP: Robust Pricing for Governed Language Data Assets under Cost Uncertainty

Hui Li
Hui Li
Citations: 9,399
h-index: 5
Fei Wu
Fei Wu
Citations: 31
h-index: 2
Zhuochen Wang
Zhuochen Wang
Citations: 93
h-index: 4
Xuhui Zheng
Xuhui Zheng
Citations: 56
h-index: 2
Yimin Dai
Yimin Dai
Citations: 1
h-index: 1

언어 데이터는 점점 더 많이 자산으로 획득되고 관리되고 있지만, 플랫폼은 종종 후보 자산의 실제 개인 정보 보호 또는 접근 비용을 알기 전에 가격을 책정합니다. 본 연구에서는 비용 불확실성 하에서 규제 언어 데이터 자산에 대한 온라인 가격 결정 방법을 연구합니다. 각 라운드에서 플랫폼은 NLP 작업, 후보 자산 및 대략적인 비용 추정치를 관찰하고, 정교한 비용 정보를 구매할 수 있으며, 가격을 제시하고, 안전한 순수익을 얻습니다. 본 연구에서는 'NH-CROP'이라는 클리핑된 견고한 가격 결정 프레임워크를 소개합니다. 이 프레임워크는 정보 획득 단계에서 위험을 최소화하는 기능을 갖추고 있습니다. 이 방법은 직접 가격 결정, 위험 인식 가격 결정 및 검증 후 가격 결정 방법을 비교하고, 추정된 의사 결정 가치가 검증을 하지 않는 최상의 대안보다 높을 때에만 정보를 획득합니다. 합성 데이터, 실제 데이터 기반 프록시, 그리고 실제 유틸리티 기반 벤치마크를 통해, 클리핑된 NH-CROP 변형은 가격만 사용하는 기본 모델 및 위험 인식 기본 모델보다 성능이 향상되거나 경쟁력 있는 수준을 유지합니다. 인과적 분석 결과, 실제 데이터 기반 프록시 및 유틸리티 기반 설정에서 얻는 성능 향상의 주요 원인은 유료 검증이 아니었습니다. 가장 효과적인 학습된 정책은 종종 검증을 선택하지 않는 경우가 많습니다. 오라클 및 높은 의사 결정 가치 진단 결과, 정교한 비용 정보는 여전히 상당한 지역적 가치를 가질 수 있습니다. 전반적으로, 규제 언어 데이터 플랫폼은 불확실한 접근 비용 하에서 먼저 가격을 조정해야 하며, 정보가 저렴하고 의사 결정에 도움이 될 때에만 검증을 수행해야 합니다.

Original Abstract

Language data are increasingly acquired and governed as assets, yet platforms often price candidate resources before knowing their true privacy or access costs. We study online pricing for governed language data assets under cost uncertainty. At each round, a platform observes an NLP task, a candidate asset, and a coarse cost estimate, may pay for a refined cost signal, posts a price, and receives safe net revenue. We introduce \textsc{NH-CROP}, a clipped robust pricing framework with a no-harm information-acquisition gate. The method compares direct pricing, risk-aware pricing, and verify-then-price, and acquires information only when its estimated decision value exceeds the best no-verification alternative. Across synthetic, real-proxy, and downstream-utility-grounded benchmarks, clipped \textsc{NH-CROP} variants improve or remain competitive with price-only and risk-aware baselines. Causal ablations show that paid verification is not the main source of gains in real-proxy and utility-grounded settings: the strongest learned policies often choose not to verify. Oracle and high-decision-value diagnostics show that refined cost information can still have substantial local value. Overall, governed language-data platforms should calibrate pricing under uncertain access costs first and verify only when information is cheap and decision-actionable.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!