GEBench: GUI 환경으로의 이미지 생성 모델 벤치마킹
GEBench: Benchmarking Image Generation Models as GUI Environments
최근 이미지 생성 모델의 발전은 사용자 지침에 기반하여 그래픽 사용자 인터페이스(GUI)의 미래 상태를 예측하는 것을 가능하게 했습니다. 그러나 기존 벤치마크는 주로 일반적인 영역의 시각적 충실도에 초점을 맞추고 있으며, GUI 환경에서의 상태 전환 및 시간적 일관성 평가에 대한 연구는 부족합니다. 이러한 격차를 해소하기 위해, 우리는 동적 상호 작용 및 GUI 생성을 통한 시간적 일관성을 평가하기 위한 포괄적인 벤치마크인 GEBench를 소개합니다. GEBench는 700개의 신중하게 선별된 샘플로 구성되어 있으며, 실제 및 가상 시나리오에서 단일 단계 상호 작용과 다중 단계 경로를 모두 포함하고, 또한 위치 정보 정렬 기능을 제공합니다. 체계적인 평가를 지원하기 위해, 우리는 목표 달성, 상호 작용 논리, 콘텐츠 일관성, UI 타당성 및 시각적 품질을 평가하는 5차원 지표인 GE-Score를 제안합니다. 현재 모델에 대한 광범위한 평가 결과, 이러한 모델은 단일 단계 전환에서는 좋은 성능을 보이지만, 더 긴 상호 작용 시퀀스에서 시간적 일관성과 공간적 정렬을 유지하는 데 어려움을 겪는 것으로 나타났습니다. 우리의 연구 결과는 아이콘 해석, 텍스트 렌더링 및 위치 정확도가 중요한 병목 현상임을 보여줍니다. 이 연구는 체계적인 평가를 위한 기반을 제공하며, 고품질의 생성 GUI 환경을 구축하기 위한 미래 연구 방향을 제시합니다. 관련 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/stepfun-ai/GEBench.
Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.