2602.10814v1 Feb 11, 2026 cs.AI

보고, 계획하고, 조립하기: 스크래치 환경에서의 멀티모달 GUI 에이전트 평가

See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

Yulei Ye
Yulei Ye
Citations: 0
h-index: 0
Kaifeng Huang
Kaifeng Huang
Citations: 19
h-index: 3
Wenhao Li
Wenhao Li
Citations: 0
h-index: 0
Xiangfeng Wang
Xiangfeng Wang
Citations: 18
h-index: 2
Xingyi Zhang
Xingyi Zhang
Citations: 344
h-index: 9

스크래치(Scratch)와 같은 블록 기반 프로그래밍 환경은 로우코드(low-code) 교육에서 핵심적인 역할을 하지만, 그래픽 사용자 인터페이스(GUI)를 통해 프로그램을 구축하는 AI 에이전트의 능력을 평가하는 연구는 아직 미흡한 실정입니다. 본 연구에서는 스크래치에서의 프로그램 구축 작업을 대상으로 멀티모달 GUI 에이전트를 평가하기 위한 벤치마크인 ScratchWorld를 소개합니다. 사용-수정-창작(Use-Modify-Create) 교육 프레임워크에 기반을 둔 ScratchWorld는 창작(Create), 디버그(Debug), 확장(Extend), 연산(Compute)의 네 가지 문제 범주에 걸쳐 엄선된 83개의 작업으로 구성됩니다. 에이전트 실패의 원인을 정밀하게 진단하기 위해, 이 벤치마크는 두 가지 상호 보완적인 상호작용 모드를 사용합니다. 기본(primitive) 모드는 세밀한 드래그 앤 드롭 조작을 요구하여 시각 운동 제어 능력을 직접 평가하며, 복합(composite) 모드는 고수준의 의미론적 API를 사용하여 프로그램 추론 능력과 GUI 실행 능력을 분리합니다. 신뢰할 수 있는 평가를 보장하기 위해, 우리는 브라우저 환경 내에서의 런타임 테스트를 통해 구축된 스크래치 프로그램의 기능적 정확성을 검증하는 실행 기반 평가 프로토콜을 제안합니다. 최신 멀티모달 언어 모델 및 GUI 에이전트에 대한 광범위한 실험 결과, 강력한 계획 능력에도 불구하고 세밀한 GUI 조작에는 여전히 과제가 남아 있음을 보여주는 상당한 '추론-행동 격차(reasoning-acting gap)'가 드러났습니다.

Original Abstract

Block-based programming environments such as Scratch play a central role in low-code education, yet evaluating the capabilities of AI agents to construct programs through Graphical User Interfaces (GUIs) remains underexplored. We introduce ScratchWorld, a benchmark for evaluating multimodal GUI agents on program-by-construction tasks in Scratch. Grounded in the Use-Modify-Create pedagogical framework, ScratchWorld comprises 83 curated tasks spanning four distinct problem categories: Create, Debug, Extend, and Compute. To rigorously diagnose the source of agent failures, the benchmark employs two complementary interaction modes: primitive mode requires fine-grained drag-and-drop manipulation to directly assess visuomotor control, while composite mode uses high-level semantic APIs to disentangle program reasoning from GUI execution. To ensure reliable assessment, we propose an execution-based evaluation protocol that validates the functional correctness of the constructed Scratch programs through runtime tests within the browser environment. Extensive experiments across state-of-the-art multimodal language models and GUI agents reveal a substantial reasoning--acting gap, highlighting persistent challenges in fine-grained GUI manipulation despite strong planning capabilities.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!