WebForge: 브라우저 에이전트 벤치마크의 현실성-재현성-확장성 삼각함수 문제 해결
WebForge: Breaking the Realism-Reproducibility-Scalability Trilemma in Browser Agent Benchmark
기존 브라우저 에이전트 벤치마크는 근본적인 삼각함수 문제를 안고 있습니다. 현실 웹 기반 벤치마크는 콘텐츠 변화로 인해 재현성이 떨어지고, 통제된 환경은 실제 웹 환경의 노이즈를 배제하여 현실성을 희생하며, 이러한 모든 벤치마크는 비용이 많이 드는 수동 관리가 필요하여 확장성을 제한합니다. 본 논문에서는 WebForge를 소개합니다. WebForge는 인간의 주석 없이 인터랙티브하고 완전한 웹 환경을 처음부터 끝까지 생성하는 4단계 파이프라인(계획, 생성, 개선, 검증)을 통해 이 삼각함수 문제를 해결하는 최초의 완전 자동화 프레임워크입니다. 7차원의 난이도 제어 프레임워크는 탐색 깊이, 시각적 복잡성, 추론 난이도 등을 포함한 다양한 요소를 통해 작업 설계를 구조화하여 단일의 집계 점수로는 파악할 수 없는 체계적인 능력 프로파일링을 가능하게 합니다. WebForge를 사용하여 7개 도메인과 3개의 난이도 레벨을 포괄하는 934개의 작업으로 구성된 벤치마크인 WebForge-Bench를 구축했습니다. 다중 모델 실험 결과, 난이도 분류는 모델의 능력을 효과적으로 구분하며, 교차 도메인 분석은 집계 지표로는 파악할 수 없는 능력 편향을 드러냅니다. 이러한 결과는 다차원 평가가 단일 집계 점수로는 파악할 수 없는 뚜렷한 능력 프로필을 보여준다는 것을 확인합니다. 코드 및 벤치마크는 https://github.com/yuandaxia2001/WebForge 에서 공개적으로 이용할 수 있습니다.
Existing browser agent benchmarks face a fundamental trilemma: real-website benchmarks lack reproducibility due to content drift, controlled environments sacrifice realism by omitting real-web noise, and both require costly manual curation that limits scalability. We present WebForge, the first fully automated framework that resolves this trilemma through a four-agent pipeline -- Plan, Generate, Refine, and Validate -- that produces interactive, self-contained web environments end-to-end without human annotation. A seven-dimensional difficulty control framework structures task design along navigation depth, visual complexity, reasoning difficulty, and more, enabling systematic capability profiling beyond single aggregate scores. Using WebForge, we construct WebForge-Bench, a benchmark of 934 tasks spanning 7 domains and 3 difficulty levels. Multi-model experiments show that difficulty stratification effectively differentiates model capabilities, while cross-domain analysis exposes capability biases invisible to aggregate metrics. Together, these results confirm that multi-dimensional evaluation reveals distinct capability profiles that a single aggregate score cannot capture. Code and benchmark are publicly available at https://github.com/yuandaxia2001/WebForge.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.