2602.07267v1 Feb 06, 2026 cs.AI

BRIDGE: 모델 성능을 기반으로 인간의 작업 완료 시간을 예측하는 방법

BRIDGE: Predicting Human Task Completion Time From Model Performance

Dzmitry Bahdanau
Dzmitry Bahdanau
Citations: 74,419
h-index: 32
Fengyuan Liu
Fengyuan Liu
Mila - Quebec AI Institute, McGill University
Citations: 22
h-index: 2
Jay Gala
Jay Gala
Citations: 20
h-index: 2
S. Reddy
S. Reddy
Citations: 23
h-index: 3
M. Québec
M. Québec
Citations: 231
h-index: 3
AI Institute
AI Institute
Citations: 231
h-index: 3
McGill University
McGill University
Citations: 6
h-index: 1
P. Montréal
P. Montréal
Citations: 260
h-index: 4
Periodic Labs
Periodic Labs
Citations: 0
h-index: 0
Servicenow Research
Servicenow Research
Citations: 10
h-index: 2
Canada Cifar
Canada Cifar
Citations: 0
h-index: 0
AI Chair
AI Chair
Citations: 18
h-index: 1
H. Larochelle
H. Larochelle
Citations: 325
h-index: 5

인공지능 시스템의 실제 성능을 평가하려면, 벤치마크 성능을 인간이 이해할 수 있는 작업 난이도 지표와 연결해야 합니다. 기존의 인간 작업 완료 시간 측정 방식은 비용이 많이 들고, 노이즈가 많으며, 다양한 벤치마크로 확장하기 어렵습니다. 본 연구에서는 BRIDGE라는 통일된 심리 측정 프레임워크를 제안합니다. BRIDGE는 모델 응답으로부터 잠재적인 작업 난이도 척도를 학습하고, 이를 인간의 작업 완료 시간에 연결합니다. 이항 로지스틱 모형(two-parameter logistic Item Response Theory model)을 사용하여, 여러 벤치마크에서 얻은 모델 성능 데이터를 통해 잠재적인 작업 난이도와 모델의 능력을 동시에 추정합니다. 잠재적인 작업 난이도가 인간의 작업 완료 시간의 로그 값에 선형적으로 비례한다는 것을 보여줍니다. 이를 통해, 모델 성능 데이터만으로 새로운 벤치마크에 대한 인간 작업 완료 시간을 추정할 수 있습니다. 이러한 연관성을 활용하여, 최첨단 모델의 능력을 인간 작업 길이 측면에서 예측하고, METR의 지수적 확장 결과를 독립적으로 재현했습니다. 50% 해결 가능한 작업의 범주는 약 6개월마다 두 배로 증가합니다.

Original Abstract

Evaluating the real-world capabilities of AI systems requires grounding benchmark performance in human-interpretable measures of task difficulty. Existing approaches that rely on direct human task completion time annotations are costly, noisy, and difficult to scale across benchmarks. In this work, we propose BRIDGE, a unified psychometric framework that learns the latent difficulty scale from model responses and anchors it to human task completion time. Using a two-parameter logistic Item Response Theory model, we jointly estimate latent task difficulty and model capability from model performance data across multiple benchmarks. We demonstrate that latent task difficulty varies linearly with the logarithm of human completion time, allowing human task completion time to be inferred for new benchmarks from model performance alone. Leveraging this alignment, we forecast frontier model capabilities in terms of human task length and independently reproduce METR's exponential scaling results, with the 50% solvable task horizon doubling approximately every 6 months.

0 Citations
0 Influential
16 Altmetric
80.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!