HyPAC: 비용 효율적인 LLM-인간 하이브리드 어노테이션: PAC 오류 보장
HyPAC: Cost-Efficient LLMs-Human Hybrid Annotation with PAC Error Guarantees
데이터 어노테이션은 종종 다양한 비용-품질 균형을 가진 여러 소스를 포함하며, 여기에는 빠른 대규모 언어 모델(LLM), 느린 추론 모델 및 인간 전문가가 포함됩니다. 본 연구에서는 테스트 인스턴스에 대한 라벨링 오류를 제어하면서 입력 데이터를 가장 비용 효율적인 어노테이션 소스로 라우팅하는 문제를 다룹니다. 우리는 **HyPAC**이라는 방법을 제안합니다. HyPAC은 중요 샘플링과 상위 신뢰 구간을 사용하여 두 개의 결정 임계값을 조정하고, 불확실성에 따라 입력을 세 영역으로 분할하여 각 영역을 적절한 어노테이션 소스로 라우팅합니다. HyPAC은 데이터 분포나 사전 훈련된 모델에 의존하지 않고, 확률적으로 대략적으로 정확한(PAC) 어노테이션 오류 보장과 함께 최소 기대 비용을 달성함을 증명합니다. 일반적인 벤치마크에서 수행한 실험 결과, HyPAC은 어노테이션 비용을 78.51% 절감하면서 어노테이션 오류를 엄격하게 제어하는 데 효과적임을 보여주었습니다.
Data annotation often involves multiple sources with different cost-quality trade-offs, such as fast large language models (LLMs), slow reasoning models, and human experts. In this work, we study the problem of routing inputs to the most cost-efficient annotation source while controlling the labeling error on test instances. We propose \textbf{HyPAC}, a method that adaptively labels inputs to the most cost-efficient annotation source while providing distribution-free guarantees on annotation error. HyPAC calibrates two decision thresholds using importance sampling and upper confidence bounds, partitioning inputs into three regions based on uncertainty and routing each to the appropriate annotation source. We prove that HyPAC achieves the minimum expected cost with a probably approximately correct (PAC) guarantee on the annotation error, free of data distribution and pre-trained models. Experiments on common benchmarks demonstrate the effectiveness of our method, reducing the annotation cost by 78.51\% while tightly controlling the annotation error.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.