2603.03800v1 Mar 04, 2026 cs.AI

희소한 실제 결과 데이터를 기반으로 한 척도(Rubric) 지도 비평기(Critic) 모델

A Rubric-Supervised Critic from Sparse Real-World Outcomes

Valerie Chen
Valerie Chen
Carnegie Mellon University
Citations: 892
h-index: 14
Graham Neubig
Graham Neubig
Citations: 592
h-index: 12
Heng Ji
Heng Ji
Citations: 652
h-index: 4
Xingyao Wang
Xingyao Wang
Citations: 194
h-index: 6

코딩 에이전트에 대한 학문적 벤치마크는 일반적으로 검증 가능한 보상(예: 단위 테스트 성공)을 통해 자율적인 작업 완료를 장려합니다. 반면, 실제 환경에서 작동하는 코딩 에이전트는 일반적으로 인간과 상호 작용하며, 이때 성공 신호는 종종 노이즈가 많고, 지연되며, 희소합니다. 이러한 간극을 어떻게 해소할 수 있을까요? 본 논문에서는 희소하고 노이즈가 많은 상호 작용 데이터를 기반으로 "비평기(critic)" 모델을 학습하는 방법을 제안합니다. 이 모델은 강화 학습 기반 훈련 또는 추론 시 성능 향상을 위한 보상 모델로 사용될 수 있습니다. 특히, 우리는 Critic Rubrics라는 척도 기반 감독 프레임워크를 소개합니다. 이 프레임워크는 인간-에이전트 상호 작용 기록에서 파생될 수 있는 24가지 행동 특징을 포함합니다. 반지도 학습 목표를 사용하여, 우리는 이러한 척도와 희소한 인간 피드백(존재하는 경우)을 동시에 예측할 수 있습니다. 실험 결과, 우리는 훈련 데이터가 주로 추적 가능한 척도와 희소한 실제 결과 데이터로 구성되어 있음에도 불구하고, 이러한 비평기 모델이 SWE-bench에서 Best@8 성능을 크게 향상시키고(Random@8에 비해 15.9% 향상, rerankable 서브셋 기준), 조기 종료를 가능하게 하며(83% 더 적은 시도로 17.7% 향상), 비평기 모델이 선택한 트레이저리를 통해 훈련 데이터 큐레이션을 지원한다는 것을 보여줍니다.

Original Abstract

Academic benchmarks for coding agents tend to reward autonomous task completion, measured by verifiable rewards such as unit-test success. In contrast, real-world coding agents operate with humans in the loop, where success signals are typically noisy, delayed, and sparse. How can we bridge this gap? In this paper, we propose a process to learn a "critic" model from sparse and noisy interaction data, which can then be used both as a reward model for either RL-based training or inference-time scaling. Specifically, we introduce Critic Rubrics, a rubric-based supervision framework with 24 behavioral features that can be derived from human-agent interaction traces alone. Using a semi-supervised objective, we can then jointly predict these rubrics and sparse human feedback (when present). In experiments, we demonstrate that, despite being trained primarily from trace-observable rubrics and sparse real-world outcome proxies, these critics improve best-of-N reranking on SWE-bench (Best@8 +15.9 over Random@8 over the rerankable subset of trajectories), enable early stopping (+17.7 with 83% fewer attempts), and support training-time data curation via critic-selected trajectories.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!