ClawArena: 변화하는 정보 환경에서 AI 에이전트 성능 평가
ClawArena: Benchmarking AI Agents in Evolving Information Environments
지속적인 어시스턴트로서 배포되는 AI 에이전트는 정보 환경이 변화함에 따라 정확한 신념을 유지해야 합니다. 실제로, 증거는 종종 서로 모순되는 다양한 출처에 흩어져 있으며, 새로운 정보는 이전 결론을 무효화할 수 있으며, 사용자 선호도는 명시적인 지시 대신 수정 사항을 통해 드러납니다. 기존 벤치마크는 대부분 정적이고 단일 권위 설정만을 가정하며, 에이전트가 이러한 복잡성에 대처할 수 있는지 평가하지 않습니다. 우리는 변화하는 정보 환경에서 AI 에이전트를 평가하기 위한 벤치마크인 ClawArena를 소개합니다. 각 시나리오는 완전한 숨겨진 진실을 유지하면서, 에이전트에게는 잡음이 심하고 부분적이며 때로는 모순되는 정보가 다중 채널 세션, 작업 공간 파일 및 단계별 업데이트를 통해 제공됩니다. 평가는 다중 소스 충돌 추론, 동적 신념 수정 및 암묵적 개인화라는 세 가지 상호 관련된 과제를 중심으로 이루어집니다. 이들의 상호 작용은 14가지 질문 분류 체계를 구성합니다. 다중 선택(집합 선택) 및 셸 기반 실행 가능한 검사라는 두 가지 질문 형식을 사용하여 추론 및 작업 공간 연관성을 모두 테스트합니다. 현재 버전에는 8가지 전문 분야에 걸쳐 64개의 시나리오가 포함되어 있으며, 총 1,879회의 평가 라운드와 365회의 동적 업데이트가 있습니다. 5가지 에이전트 프레임워크 및 5가지 언어 모델에 대한 실험 결과, 모델 능력(15.4% 범위)과 프레임워크 설계(9.2%)가 모두 성능에 상당한 영향을 미치는 것으로 나타났습니다. 또한, 자체적으로 발전하는 기술 프레임워크는 모델 능력 격차를 부분적으로 해소할 수 있으며, 신념 수정의 어려움은 업데이트 설계 전략에 의해 결정되며, 단순히 업데이트의 존재 여부에 의해 결정되는 것은 아닙니다. 코드는 https://github.com/aiming-lab/ClawArena에서 확인할 수 있습니다.
AI agents deployed as persistent assistants must maintain correct beliefs as their information environment evolves. In practice, evidence is scattered across heterogeneous sources that often contradict one another, new information can invalidate earlier conclusions, and user preferences surface through corrections rather than explicit instructions. Existing benchmarks largely assume static, single-authority settings and do not evaluate whether agents can keep up with this complexity. We introduce ClawArena, a benchmark for evaluating AI agents in evolving information environments. Each scenario maintains a complete hidden ground truth while exposing the agent only to noisy, partial, and sometimes contradictory traces across multi-channel sessions, workspace files, and staged updates. Evaluation is organized around three coupled challenges: multi-source conflict reasoning, dynamic belief revision, and implicit personalization, whose interactions yield a 14-category question taxonomy. Two question formats, multi-choice (set-selection) and shell-based executable checks, test both reasoning and workspace grounding. The current release contains 64 scenarios across 8 professional domains, totaling 1{,}879 evaluation rounds and 365 dynamic updates. Experiments on five agent frameworks and five language models show that both model capability (15.4% range) and framework design (9.2%) substantially affect performance, that self-evolving skill frameworks can partially close model-capability gaps, and that belief revision difficulty is determined by update design strategy rather than the mere presence of updates. Code is available at https://github.com/aiming-lab/ClawArena.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.