2604.10988v1 Apr 13, 2026 cs.AI

WebForge: 브라우저 에이전트 벤치마크의 현실성-재현성-확장성 삼각함수 문제 해결

WebForge: Breaking the Realism-Reproducibility-Scalability Trilemma in Browser Agent Benchmark

Zheng Wei
Zheng Wei
Citations: 24
h-index: 2
Yuxuan Cai
Yuxuan Cai
Citations: 79
h-index: 3
Peng Yuan
Peng Yuan
Citations: 17
h-index: 2
Yuyang Yin
Yuyang Yin
Citations: 25
h-index: 3

기존 브라우저 에이전트 벤치마크는 근본적인 삼각함수 문제를 안고 있습니다. 현실 웹 기반 벤치마크는 콘텐츠 변화로 인해 재현성이 떨어지고, 통제된 환경은 실제 웹 환경의 노이즈를 배제하여 현실성을 희생하며, 이러한 모든 벤치마크는 비용이 많이 드는 수동 관리가 필요하여 확장성을 제한합니다. 본 논문에서는 WebForge를 소개합니다. WebForge는 인간의 주석 없이 인터랙티브하고 완전한 웹 환경을 처음부터 끝까지 생성하는 4단계 파이프라인(계획, 생성, 개선, 검증)을 통해 이 삼각함수 문제를 해결하는 최초의 완전 자동화 프레임워크입니다. 7차원의 난이도 제어 프레임워크는 탐색 깊이, 시각적 복잡성, 추론 난이도 등을 포함한 다양한 요소를 통해 작업 설계를 구조화하여 단일의 집계 점수로는 파악할 수 없는 체계적인 능력 프로파일링을 가능하게 합니다. WebForge를 사용하여 7개 도메인과 3개의 난이도 레벨을 포괄하는 934개의 작업으로 구성된 벤치마크인 WebForge-Bench를 구축했습니다. 다중 모델 실험 결과, 난이도 분류는 모델의 능력을 효과적으로 구분하며, 교차 도메인 분석은 집계 지표로는 파악할 수 없는 능력 편향을 드러냅니다. 이러한 결과는 다차원 평가가 단일 집계 점수로는 파악할 수 없는 뚜렷한 능력 프로필을 보여준다는 것을 확인합니다. 코드 및 벤치마크는 https://github.com/yuandaxia2001/WebForge 에서 공개적으로 이용할 수 있습니다.

Original Abstract

Existing browser agent benchmarks face a fundamental trilemma: real-website benchmarks lack reproducibility due to content drift, controlled environments sacrifice realism by omitting real-web noise, and both require costly manual curation that limits scalability. We present WebForge, the first fully automated framework that resolves this trilemma through a four-agent pipeline -- Plan, Generate, Refine, and Validate -- that produces interactive, self-contained web environments end-to-end without human annotation. A seven-dimensional difficulty control framework structures task design along navigation depth, visual complexity, reasoning difficulty, and more, enabling systematic capability profiling beyond single aggregate scores. Using WebForge, we construct WebForge-Bench, a benchmark of 934 tasks spanning 7 domains and 3 difficulty levels. Multi-model experiments show that difficulty stratification effectively differentiates model capabilities, while cross-domain analysis exposes capability biases invisible to aggregate metrics. Together, these results confirm that multi-dimensional evaluation reveals distinct capability profiles that a single aggregate score cannot capture. Code and benchmark are publicly available at https://github.com/yuandaxia2001/WebForge.

3 Citations
1 Influential
33.489476363992 Altmetric
172.4 Score
Original PDF
10

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!