2604.09408v2 Apr 10, 2026 cs.AI

HiL-Bench (인간 상호작용 벤치마크): 에이전트는 도움을 요청해야 할 때를 아는가?

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

Mohamed Elfeki
Mohamed Elfeki
Citations: 252
h-index: 6
T. Trinh
T. Trinh
Citations: 2
h-index: 1
Kelvin Luu
Kelvin Luu
Citations: 208
h-index: 4
Guangze Luo
Guangze Luo
Citations: 10
h-index: 2
Nathan Hunt
Nathan Hunt
MIT
Citations: 355
h-index: 5
E. Montoya
E. Montoya
Citations: 11
h-index: 1
Nandan Marwaha
Nandan Marwaha
Citations: 17
h-index: 1
Charles L. Wang
Charles L. Wang
Columbia University
Citations: 38
h-index: 2
Fernando Crabedo
Fernando Crabedo
Citations: 0
h-index: 0
Alessa Castilo
Alessa Castilo
Citations: 0
h-index: 0
Yan He
Yan He
Citations: 85
h-index: 2
Bing Liu
Bing Liu
Citations: 51
h-index: 3

최첨단 코딩 에이전트는 완전한 컨텍스트가 주어질 때 복잡한 작업을 해결하지만, 사양이 불완전하거나 모호할 경우 성능이 저하됩니다. 문제는 에이전트의 기본적인 능력 자체가 아니라 판단 능력, 즉 자율적으로 행동해야 할 때와 도움을 요청해야 할 때를 아는 능력에 있습니다. 현재 벤치마크는 이러한 문제점을 간과합니다. 벤치마크는 명확하고 자세한 지침을 제공하고 실행의 정확성만을 평가하므로, 누락된 요구 사항에 대해 우연히 정답을 맞히는 에이전트와 확실하게 답변을 얻기 위해 도움을 요청하는 에이전트가 동일한 점수를 받게 됩니다. 저희는 이러한 선택적인 도움 요청 능력을 측정하기 위해 HiL-Bench (Human-in-the-Loop Benchmark)를 제안합니다. 각 작업에는 인간이 검증한 장애 요소(누락된 정보, 모호한 요청, 모순되는 정보)가 포함되어 있으며, 이는 작업 과정에서 점진적으로 드러납니다. 저희의 핵심 지표인 Ask-F1은 질문의 정확도와 장애 요소 회수율의 조화 평균으로, 과도한 질문과 무성의한 추측 사이의 균형을 나타냅니다. 또한, Ask-F1의 구조는 질문 스팸을 통한 부정행위를 방지하도록 설계되었습니다. SWE (Software Engineering) 및 텍스트-SQL 도메인에서의 평가 결과, 광범위하고 보편적인 판단 능력 부족이 확인되었습니다. 최첨단 모델이라도 도움을 요청할지 여부를 결정할 때, 완전한 정보를 사용할 때의 성능의 일부에 불과합니다. 실패 분석 결과, 세 가지 주요 도움 요청 패턴이 확인되었습니다. 첫째, 모델은 과도한 확신을 가진 잘못된 믿음을 가지며, 오류를 감지하지 못합니다. 둘째, 모델은 높은 불확실성을 감지하지만, 지속적으로 오류를 범합니다. 셋째, 모델은 자체 수정 없이 광범위하고 부정확한 도움 요청을 수행합니다. 이러한 일관된 패턴은 도움 요청 능력 부족이 모델 자체의 결함이며, 특정 작업과 관련이 없음을 시사합니다. Ask-F1을 기반으로 한 강화 학습 훈련 결과, 판단 능력은 훈련이 가능하다는 것을 확인했습니다. 320억 개의 파라미터를 가진 모델은 도움 요청의 품질과 작업 성공률을 모두 향상시켰으며, 이러한 개선 사항은 다양한 도메인에서 유지되었습니다. 모델은 도움을 요청해야 하는 시점에 대한 도메인별 휴리스틱을 학습하는 것이 아니라, 해결할 수 없는 불확실성을 감지하고 이에 대응하는 방법을 학습합니다.

Original Abstract

Frontier coding agents solve complex tasks when given complete context but collapse when specifications are incomplete or ambiguous. The bottleneck is not raw capability, but judgment: knowing when to act autonomously and when to ask for help. Current benchmarks are blind to this failure mode. They supply unambiguous detailed instructions and solely reward execution correctness, so an agent that makes a lucky guess for a missing requirement will score identically to one that would have asked to be certain. We present HiL-Bench (Human-in-the-Loop Benchmark) to measure this selective escalation skill. Each task contains human-validated blockers (missing information, ambiguous requests, contradictory information) that surface only through progressive exploration, not upfront inspection. Our core metric, Ask-F1, the harmonic mean of question precision and blocker recall, captures the tension between over-asking and silent guessing; its structure architecturally prevents gaming through question spam. Evaluation across SWE and text-to-SQL domains reveals a large universal judgment gap: no frontier model recovers more than a fraction of its full-information performance when deciding whether to ask. Failure analysis identifies three key help-seeking patterns: overconfident wrong beliefs with no gap detection; high uncertainty detection yet persistent errors; broad, imprecise escalation without self-correction. These consistent patterns confirm poor help-seeking is a model-level flaw, not task-specific. RL training on shaped Ask-F1 reward shows judgment is trainable: a 32B model improves both help-seeking quality and task pass rate, with gains that transfer across domains. The model does not learn domain-specific heuristics for when to ask; it learns to detect unresolvable uncertainty and act on it.

1 Citations
1 Influential
3 Altmetric
18.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!