2604.28093v1 Apr 30, 2026 cs.AI

좋은 터미널 에이전트 벤치마크 과제란 무엇인가: 적대적, 어렵고 명확한 평가 설계 지침

What Makes a Good Terminal-Agent Benchmark Task: A Guideline for Adversarial, Difficult, and Legible Evaluation Design

I. Bercovich
I. Bercovich
Citations: 95
h-index: 3

터미널 에이전트 벤치마크는 대규모 언어 모델의 코딩 및 시스템 관리 능력을 측정하는 주요 지표로 자리 잡았습니다. 평가 환경 시장이 성장함에 따라, 종종 검증 로직에 대한 철저한 적대적 검토 없이 빠르게 과제를 출시해야 하는 압박이 커지고 있습니다. 본 논문은 '터미널 벤치' 과제 개발 및 검토에 참여한 1년 이상의 경험을 바탕으로 작성된 좋은 벤치마크 과제 작성 지침입니다. 대부분의 사람들은 벤치마크 과제를 프롬프트 작성 방식과 유사하게 작성합니다. 그러나 그래서는 안 됩니다. 프롬프트는 에이전트가 성공하도록 돕기 위해 설계된 반면, 벤치마크는 에이전트가 성공할 수 있는지 확인하기 위해 설계되었습니다. 우리는 좋은 과제가 적대적이고, 어렵고, 명확해야 하며, 과제 작성을 프롬프트 작성으로 취급할 때 발생하는 AI 생성 지침, 지나치게 상세한 사양, 업무 난이도, 숨겨진 지식을 가정하는 오라클 솔루션, 잘못된 것을 검증하는 테스트, 그리고 보상을 악용할 수 있는 환경과 같은 다양한 실패 사례가 예측 가능한 결과라고 주장합니다. 본 논문에서는 이러한 실패 사례를 분류하고, 실제 난이도는 환경적인 요소보다는 개념적인 요소에 의해 결정된다는 점을 논하고, 인기 있는 터미널 에이전트 벤치마크의 15% 이상이 보상을 악용할 수 있는 과제로 구성되어 있다는 최근의 실증적 증거를 제시합니다. 본 논문이 벤치마크 관리자, 과제 기여자 및 벤치마크 점수를 증거로 사용하는 연구자들에게 유용한 참고 자료가 되기를 바랍니다.

Original Abstract

Terminal-agent benchmarks have become a primary signal for measuring the coding and system-administration capabilities of large language models. As the market for evaluation environments grows, so does the pressure to ship tasks quickly, often without thorough adversarial review of the verification logic. This paper is a guideline for writing good benchmark tasks, drawn from over a year of contributing to and reviewing tasks for Terminal Bench. Most people write benchmark tasks the way they write prompts. They shouldn't. A prompt is designed to help the agent succeed; a benchmark is designed to find out if it can. We argue that good tasks are adversarial, difficult, and legible, and that a large class of common failure modes -- AI-generated instructions, over-prescriptive specifications, clerical difficulty, oracle solutions that assume hidden knowledge, tests that validate the wrong things, and reward-hackable environments -- are predictable consequences of treating task authoring as prompt authoring. We catalog these failure modes, argue that real difficulty is conceptual rather than environmental, and discuss recent empirical evidence that over 15% of tasks in popular terminal-agent benchmarks are reward-hackable. We hope this serves as a useful reference for benchmark maintainers, task contributors, and researchers using benchmark scores as evidence.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!