2601.13458v2 Jan 19, 2026 stat.ML

레이블인가, 선호도인가? 인간 판단을 활용한 AI 생성 결과 학습 시 예산 제약 문제

Labels or Preferences? Budget-Constrained Learning with Human Judgments over AI-Generated Outputs

Ruijia Wu
Ruijia Wu
Citations: 3
h-index: 1
Zihan Dong
Zihan Dong
Citations: 14
h-index: 2
Linjun Zhang
Linjun Zhang
Citations: 33
h-index: 4

AI 생성 결과에 대한 인간의 선호도 피드백에 대한 의존도가 증가함에 따라, 예산 제약을 고려한 데이터 획득 전략의 필요성이 대두되고 있습니다. 본 연구에서는 AI에서 고정된 주석 예산을 정답 레이블과 쌍별 선호도 데이터 사이에 어떻게 최적으로 분배할 것인지에 대한 중요한 질문에 답하고자 합니다. 저희는 반준모수 추론을 기반으로 예산 할당 문제를 단조 결측 데이터 프레임워크로 정의합니다. 이러한 정의를 바탕으로, 저희는 최적의 데이터 획득 전략을 학습하고 데이터 분포의 함수에 대한 통계적으로 효율적인 추정기를 개발하는 새로운 방법인 Preference-Calibrated Active Learning (PCAL)을 제안합니다. 이론적으로, 저희는 PCAL 추정기의 점근적 최적성을 증명하고, 부정확하게 추정된 교란 모델이 존재하더라도 안정적인 성능을 보장하는 핵심적인 강건성 보장을 확립했습니다. 저희의 유연한 프레임워크는 추정기의 분산을 직접 최적화함으로써, 특정 형태의 해를 요구하지 않고 일반적인 문제에 적용될 수 있습니다. 본 연구는 현대 AI에서 예산 제약 하에서의 학습에 대한 원칙적이고 통계적으로 효율적인 접근 방식을 제공합니다. 시뮬레이션 및 실제 데이터 분석을 통해 저희가 제안하는 방법의 실용적인 이점과 우수한 성능을 입증했습니다.

Original Abstract

The increasing reliance on human preference feedback to judge AI-generated pseudo labels has created a pressing need for principled, budget-conscious data acquisition strategies. We address the crucial question of how to optimally allocate a fixed annotation budget between ground-truth labels and pairwise preferences in AI. Our solution, grounded in semi-parametric inference, casts the budget allocation problem as a monotone missing data framework. Building on this formulation, we introduce Preference-Calibrated Active Learning (PCAL), a novel method that learns the optimal data acquisition strategy and develops a statistically efficient estimator for functionals of the data distribution. Theoretically, we prove the asymptotic optimality of our PCAL estimator and establish a key robustness guarantee that ensures robust performance even with poorly estimated nuisance models. Our flexible framework applies to a general class of problems, by directly optimizing the estimator's variance instead of requiring a closed-form solution. This work provides a principled and statistically efficient approach for budget-constrained learning in modern AI. Simulations and real-data analysis demonstrate the practical benefits and superior performance of our proposed method.

2 Citations
0 Influential
2 Altmetric
12.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!