WebTestBench: 종단 간 자동 웹 테스트를 위한 컴퓨터 사용 에이전트 평가
WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing
최근 대규모 언어 모델(LLM)의 발전은 프로그래밍 패러다임에 큰 변화를 가져왔으며, 사용자가 자연어 지시를 통해 전체 프로젝트를 구축하고 심지어 컴퓨터를 제어할 수 있는 "vibe 코딩"이 등장했습니다. 이러한 패러다임은 자동화된 웹 페이지 개발을 촉진했지만, 웹 기능이 안정적으로 구현되었는지 자동으로 검증하는 새로운 요구 사항을 야기합니다. 기존 연구는 정적인 시각적 유사성이나 미리 정의된 체크리스트에 의존하여, 개방형 환경에서의 유용성이 제한됩니다. 또한, 소프트웨어 품질의 중요한 측면인 잠재적인 논리적 제약 조건을 간과합니다. 이러한 문제점을 해결하기 위해, 우리는 종단 간 자동 웹 테스트를 평가하기 위한 벤치마크인 WebTestBench를 소개합니다. WebTestBench는 다양한 웹 애플리케이션 범주를 포괄하는 종합적인 평가 기준을 제공합니다. 우리는 테스트 프로세스를 체크리스트 생성 및 결함 감지라는 두 가지 단계로 나누고, 이를 위한 기본 프레임워크인 WebTester를 제안합니다. WebTester를 사용하여 인기 있는 LLM을 평가한 결과, 테스트의 불완전성, 감지 성능의 병목 현상, 그리고 장기적인 상호 작용의 불안정성 등 심각한 문제가 발견되었습니다. 이러한 결과는 현재 컴퓨터 사용 에이전트의 기능과 산업 현장의 요구 사항 간의 상당한 격차를 보여줍니다. 우리는 WebTestBench가 종단 간 자동 웹 테스트 발전을 위한 귀중한 통찰력과 지침을 제공할 수 있기를 바랍니다. 데이터셋 및 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/friedrichor/WebTestBench.
The emergence of Large Language Models (LLMs) has catalyzed a paradigm shift in programming, giving rise to "vibe coding", where users can build complete projects and even control computers using natural language instructions. This paradigm has driven automated webpage development, but it introduces a new requirement about how to automatically verify whether the web functionalities are reliably implemented. Existing works struggle to adapt, relying on static visual similarity or predefined checklists that constrain their utility in open-ended environments. Furthermore, they overlook a vital aspect of software quality, namely latent logical constraints. To address these gaps, we introduce WebTestBench, a benchmark for evaluating end-to-end automated web testing. WebTestBench encompasses comprehensive dimensions across diverse web application categories. We decompose the testing process into two cascaded sub-tasks, checklist generation and defect detection, and propose WebTester, a baseline framework for this task. Evaluating popular LLMs with WebTester reveals severe challenges, including insufficient test completeness, detection bottlenecks, and long-horizon interaction unreliability. These findings expose a substantial gap between current computer-use agent capabilities and industrial-grade deployment demands. We hope that WebTestBench provides valuable insights and guidance for advancing end-to-end automated web testing. Our dataset and code are available at https://github.com/friedrichor/WebTestBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.