2604.18240v1 Apr 20, 2026 cs.AI

AJ-Bench: 환경 인지 평가를 위한 에이전트 기반 심판 시스템 벤치마킹

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Yu Wang
Yu Wang
Citations: 217
h-index: 8
Hui Su
Hui Su
Citations: 75
h-index: 3
Yuxin Chen
Yuxin Chen
Citations: 4
h-index: 1
Qi Gu
Qi Gu
Citations: 19
h-index: 2
Fuli Feng
Fuli Feng
Citations: 403
h-index: 11
Yuyang Zhao
Yuyang Zhao
Citations: 147
h-index: 4
Xiang He
Xiang He
Citations: 15
h-index: 2
Xunliang Cai
Xunliang Cai
Citations: 31
h-index: 4
Xiaole Su
Xiaole Su
Citations: 0
h-index: 0
Wentao Shi
Wentao Shi
Citations: 430
h-index: 10
Xue‐Li Hao
Xue‐Li Hao
Citations: 85
h-index: 4

강화 학습이 대규모 언어 모델 기반 에이전트의 학습을 지속적으로 확장함에 따라, 복잡한 환경에서 에이전트의 동작을 안정적으로 검증하는 것이 점점 더 어려워지고 있습니다. 기존 접근 방식은 규칙 기반 검증기 또는 LLM-as-a-Judge 모델에 의존하는데, 이러한 모델은 좁은 영역을 벗어난 일반화에 어려움을 겪습니다. Agent-as-a-Judge는 환경 및 도구와 적극적으로 상호 작용하여 검증 가능한 증거를 획득함으로써 이러한 한계를 극복하고자 하지만, 그 잠재력은 아직 충분히 탐구되지 않았습니다. 저희는 Agent-as-a-Judge 시스템을 체계적으로 평가하기 위한 벤치마크인 AJ-Bench를 소개합니다. 이 벤치마크는 검색, 데이터 시스템 및 그래픽 사용자 인터페이스의 세 가지 영역을 포함하며, 총 155개의 작업과 516개의 주석이 달린 실행 경로로 구성됩니다. 이 벤치마크는 심판 에이전트의 정보 획득 능력, 상태 검증 능력 및 프로세스 검증 능력을 종합적으로 평가합니다. 실험 결과는 LLM-as-a-Judge 모델을 기준으로 상당한 성능 향상을 보여주지만, 에이전트 기반 검증에 여전히 많은 과제가 존재함을 보여줍니다. 저희의 데이터 및 코드는 https://aj-bench.github.io/ 에서 확인할 수 있습니다.

Original Abstract

As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored. We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!