AJ-Bench: 환경 인지 평가를 위한 에이전트 기반 심판 시스템 벤치마킹
AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation
강화 학습이 대규모 언어 모델 기반 에이전트의 학습을 지속적으로 확장함에 따라, 복잡한 환경에서 에이전트의 동작을 안정적으로 검증하는 것이 점점 더 어려워지고 있습니다. 기존 접근 방식은 규칙 기반 검증기 또는 LLM-as-a-Judge 모델에 의존하는데, 이러한 모델은 좁은 영역을 벗어난 일반화에 어려움을 겪습니다. Agent-as-a-Judge는 환경 및 도구와 적극적으로 상호 작용하여 검증 가능한 증거를 획득함으로써 이러한 한계를 극복하고자 하지만, 그 잠재력은 아직 충분히 탐구되지 않았습니다. 저희는 Agent-as-a-Judge 시스템을 체계적으로 평가하기 위한 벤치마크인 AJ-Bench를 소개합니다. 이 벤치마크는 검색, 데이터 시스템 및 그래픽 사용자 인터페이스의 세 가지 영역을 포함하며, 총 155개의 작업과 516개의 주석이 달린 실행 경로로 구성됩니다. 이 벤치마크는 심판 에이전트의 정보 획득 능력, 상태 검증 능력 및 프로세스 검증 능력을 종합적으로 평가합니다. 실험 결과는 LLM-as-a-Judge 모델을 기준으로 상당한 성능 향상을 보여주지만, 에이전트 기반 검증에 여전히 많은 과제가 존재함을 보여줍니다. 저희의 데이터 및 코드는 https://aj-bench.github.io/ 에서 확인할 수 있습니다.
As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored. We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.