OpenClaw 및 Codex 환경에서의 경로 안전성 평가 및 진단을 위한 벤치마크: ATBench-Claw 및 ATBench-CodeX
Benchmarks for Trajectory Safety Evaluation and Diagnosis in OpenClaw and Codex: ATBench-Claw and ATBench-CodeX
에이전트 시스템이 점점 더 다양한 실행 환경으로 확장됨에 따라, 경로 수준의 안전성 평가 및 진단은 이러한 환경 변화에 맞춰 발전하는 벤치마크가 필요합니다. ATBench는 안전성 평가 및 진단을 위한 다양한 현실적인 에이전트 경로 벤치마크입니다. 본 보고서에서는 ATBench를 OpenClaw 및 OpenAI Codex / Codex-runtime 환경으로 확장한 두 가지 도메인 특화 벤치마크인 ATBench-Claw 및 ATBench-CodeX를 소개합니다. 핵심적인 적응 메커니즘은 새로운 환경을 분석하고, 위험 원천, 오류 모드 및 실제 피해를 기반으로 하는 3차원 안전 분류 체계를 맞춤화한 다음, 이러한 맞춤화된 분류 체계를 사용하여 ATBench 생성 파이프라인에서 소비되는 벤치마크 사양을 정의하는 것입니다. 이러한 확장성은 에이전트 프레임워크가 아키텍처 수준에서는 비교적 안정적으로 유지되는 반면, 구체적인 실행 환경, 도구 생태계 및 제품 기능은 빠르게 변화하기 때문에 중요합니다. 구체적으로, ATBench-Claw는 OpenClaw 환경에서 도구, 기술, 세션 및 외부 작업을 포함하는 실행 체인을 대상으로 하고, ATBench-CodeX는 OpenAI Codex / Codex-runtime 환경에서 저장소, 셸, 패치, 의존성, 승인 및 런타임 정책 경계를 대상으로 합니다. 따라서 본 연구는 분류 체계의 맞춤화, 도메인 특화 위험 범위 및 공유 ATBench 생성 프레임워크 하에서의 벤치마크 설계에 중점을 둡니다.
As agent systems move into increasingly diverse execution settings, trajectory-level safety evaluation and diagnosis require benchmarks that evolve with them. ATBench is a diverse and realistic agent trajectory benchmark for safety evaluation and diagnosis. This report presents ATBench-Claw and ATBench-CodeX, two domain-customized extensions that carry ATBench into the OpenClaw and OpenAI Codex / Codex-runtime settings. The key adaptation mechanism is to analyze each new setting, customize the three-dimensional Safety Taxonomy over risk source, failure mode, and real-world harm, and then use that customized taxonomy to define the benchmark specification consumed by the shared ATBench construction pipeline. This extensibility matters because agent frameworks remain relatively stable at the architectural level even as their concrete execution settings, tool ecosystems, and product capabilities evolve quickly. Concretely, ATBench-Claw targets OpenClaw-sensitive execution chains over tools, skills, sessions, and external actions, while ATBench-CodeX targets trajectories in the OpenAI Codex / Codex-runtime setting over repositories, shells, patches, dependencies, approvals, and runtime policy boundaries. Our emphasis therefore falls on taxonomy customization, domain-specific risk coverage, and benchmark design under a shared ATBench generation framework.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.