2602.09007v1 Feb 09, 2026 cs.AI

GEBench: GUI 환경으로서의 이미지 생성 모델 벤치마킹

GEBench: Benchmarking Image Generation Models as GUI Environments

Haodong Li
Haodong Li
Citations: 2
h-index: 1
Quan Sun
Quan Sun
Citations: 397
h-index: 4
Guopeng Li
Guopeng Li
Citations: 280
h-index: 4
Ruichuan An
Ruichuan An
Citations: 4
h-index: 2
C. Qing
C. Qing
Citations: 2
h-index: 1
Jia Wang
Jia Wang
Citations: 263
h-index: 6
Ziyang Meng
Ziyang Meng
Citations: 198
h-index: 5
Zheng Ge
Zheng Ge
Citations: 383
h-index: 10
Jingwei Wu
Jingwei Wu
Citations: 294
h-index: 5
Juanxi Tian
Juanxi Tian
Citations: 28
h-index: 3
Huan Zhang
Huan Zhang
Citations: 134
h-index: 4
Yanlin Lai
Yanlin Lai
Citations: 17
h-index: 2
Hong Peng
Hong Peng
Citations: 6
h-index: 1
Yuhong Dai
Yuhong Dai
Citations: 11
h-index: 1
Chenxi Li
Chenxi Li
Citations: 82
h-index: 4
Xiangyu Zhang
Xiangyu Zhang
Citations: 520
h-index: 6
Daxin Jiang
Daxin Jiang
Citations: 1,013
h-index: 13

최근 이미지 생성 모델의 발전으로 사용자 지시에 기반하여 미래의 그래픽 사용자 인터페이스(GUI) 상태를 예측하는 것이 가능해졌습니다. 그러나 기존 벤치마크들은 주로 일반 도메인의 시각적 충실도에 초점을 맞추고 있어, GUI 특화 문맥에서의 상태 전이와 시간적 일관성에 대한 평가는 부족한 실정입니다. 이러한 문제를 해결하기 위해, 우리는 GUI 생성에서의 동적 상호작용과 시간적 일관성을 평가하기 위한 포괄적인 벤치마크인 GEBench를 소개합니다. GEBench는 5가지 작업 범주에 걸쳐 엄선된 700개의 샘플로 구성되어 있으며, 실제 및 가상 시나리오에서의 단일 단계 상호작용과 다중 단계 궤적, 그리고 그라운딩 포인트 위치 추정을 모두 포함합니다. 체계적인 평가를 지원하기 위해, 목표 달성도, 상호작용 논리, 콘텐츠 일관성, UI 개연성, 시각적 품질을 평가하는 새로운 5차원 지표인 GE-Score를 제안합니다. 최신 모델들에 대한 광범위한 평가 결과, 단일 단계 전이에서는 우수한 성능을 보이지만 더 긴 상호작용 시퀀스에 걸쳐 시간적 일관성과 공간적 그라운딩을 유지하는 데에는 상당한 어려움을 겪는 것으로 나타났습니다. 우리의 연구 결과는 아이콘 해석, 텍스트 렌더링, 위치 추정 정밀도를 주요 병목 현상으로 지목합니다. 본 연구는 체계적인 평가를 위한 기반을 제공하며, 고충실도 생성형 GUI 환경 구축을 향한 향후 연구의 유망한 방향을 제시합니다. 코드는 https://github.com/stepfun-ai/GEBench 에서 확인할 수 있습니다.

Original Abstract

Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.

1 Citations
0 Influential
44.687930798632 Altmetric
224.4 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!