희소한 실제 결과 데이터를 기반으로 한 척도(Rubric) 지도 비평기(Critic) 모델
A Rubric-Supervised Critic from Sparse Real-World Outcomes
코딩 에이전트에 대한 학문적 벤치마크는 일반적으로 검증 가능한 보상(예: 단위 테스트 성공)을 통해 자율적인 작업 완료를 장려합니다. 반면, 실제 환경에서 작동하는 코딩 에이전트는 일반적으로 인간과 상호 작용하며, 이때 성공 신호는 종종 노이즈가 많고, 지연되며, 희소합니다. 이러한 간극을 어떻게 해소할 수 있을까요? 본 논문에서는 희소하고 노이즈가 많은 상호 작용 데이터를 기반으로 "비평기(critic)" 모델을 학습하는 방법을 제안합니다. 이 모델은 강화 학습 기반 훈련 또는 추론 시 성능 향상을 위한 보상 모델로 사용될 수 있습니다. 특히, 우리는 Critic Rubrics라는 척도 기반 감독 프레임워크를 소개합니다. 이 프레임워크는 인간-에이전트 상호 작용 기록에서 파생될 수 있는 24가지 행동 특징을 포함합니다. 반지도 학습 목표를 사용하여, 우리는 이러한 척도와 희소한 인간 피드백(존재하는 경우)을 동시에 예측할 수 있습니다. 실험 결과, 우리는 훈련 데이터가 주로 추적 가능한 척도와 희소한 실제 결과 데이터로 구성되어 있음에도 불구하고, 이러한 비평기 모델이 SWE-bench에서 Best@8 성능을 크게 향상시키고(Random@8에 비해 15.9% 향상, rerankable 서브셋 기준), 조기 종료를 가능하게 하며(83% 더 적은 시도로 17.7% 향상), 비평기 모델이 선택한 트레이저리를 통해 훈련 데이터 큐레이션을 지원한다는 것을 보여줍니다.
Academic benchmarks for coding agents tend to reward autonomous task completion, measured by verifiable rewards such as unit-test success. In contrast, real-world coding agents operate with humans in the loop, where success signals are typically noisy, delayed, and sparse. How can we bridge this gap? In this paper, we propose a process to learn a "critic" model from sparse and noisy interaction data, which can then be used both as a reward model for either RL-based training or inference-time scaling. Specifically, we introduce Critic Rubrics, a rubric-based supervision framework with 24 behavioral features that can be derived from human-agent interaction traces alone. Using a semi-supervised objective, we can then jointly predict these rubrics and sparse human feedback (when present). In experiments, we demonstrate that, despite being trained primarily from trace-observable rubrics and sparse real-world outcome proxies, these critics improve best-of-N reranking on SWE-bench (Best@8 +15.9 over Random@8 over the rerankable subset of trajectories), enable early stopping (+17.7 with 83% fewer attempts), and support training-time data curation via critic-selected trajectories.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.