2602.10814v1 Feb 11, 2026 cs.AI

보고, 계획하고, 조립하기: 스크래치 환경에서의 멀티모달 GUI 에이전트 평가

See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

Yulei Ye
Yulei Ye
Citations: 0
h-index: 0
Kaifeng Huang
Kaifeng Huang
Citations: 26
h-index: 3
Wenhao Li
Wenhao Li
Citations: 0
h-index: 0
Xiangfeng Wang
Xiangfeng Wang
Citations: 27
h-index: 2
Xingyi Zhang
Xingyi Zhang
Citations: 359
h-index: 9

스크래치(Scratch)와 같은 블록 기반 프로그래밍 환경은 로우코드(low-code) 교육에서 핵심적인 역할을 하지만, 그래픽 사용자 인터페이스(GUI)를 통해 프로그램을 구축하는 AI 에이전트의 능력을 평가하는 연구는 아직 미흡한 실정입니다. 본 연구에서는 스크래치에서의 프로그램 구축 작업을 대상으로 멀티모달 GUI 에이전트를 평가하기 위한 벤치마크인 ScratchWorld를 소개합니다. 사용-수정-창작(Use-Modify-Create) 교육 프레임워크에 기반을 둔 ScratchWorld는 창작(Create), 디버그(Debug), 확장(Extend), 연산(Compute)의 네 가지 문제 범주에 걸쳐 엄선된 83개의 작업으로 구성됩니다. 에이전트 실패의 원인을 정밀하게 진단하기 위해, 이 벤치마크는 두 가지 상호 보완적인 상호작용 모드를 사용합니다. 기본(primitive) 모드는 세밀한 드래그 앤 드롭 조작을 요구하여 시각 운동 제어 능력을 직접 평가하며, 복합(composite) 모드는 고수준의 의미론적 API를 사용하여 프로그램 추론 능력과 GUI 실행 능력을 분리합니다. 신뢰할 수 있는 평가를 보장하기 위해, 우리는 브라우저 환경 내에서의 런타임 테스트를 통해 구축된 스크래치 프로그램의 기능적 정확성을 검증하는 실행 기반 평가 프로토콜을 제안합니다. 최신 멀티모달 언어 모델 및 GUI 에이전트에 대한 광범위한 실험 결과, 강력한 계획 능력에도 불구하고 세밀한 GUI 조작에는 여전히 과제가 남아 있음을 보여주는 상당한 '추론-행동 격차(reasoning-acting gap)'가 드러났습니다.

Original Abstract

Block-based programming environments such as Scratch play a central role in low-code education, yet evaluating the capabilities of AI agents to construct programs through Graphical User Interfaces (GUIs) remains underexplored. We introduce ScratchWorld, a benchmark for evaluating multimodal GUI agents on program-by-construction tasks in Scratch. Grounded in the Use-Modify-Create pedagogical framework, ScratchWorld comprises 83 curated tasks spanning four distinct problem categories: Create, Debug, Extend, and Compute. To rigorously diagnose the source of agent failures, the benchmark employs two complementary interaction modes: primitive mode requires fine-grained drag-and-drop manipulation to directly assess visuomotor control, while composite mode uses high-level semantic APIs to disentangle program reasoning from GUI execution. To ensure reliable assessment, we propose an execution-based evaluation protocol that validates the functional correctness of the constructed Scratch programs through runtime tests within the browser environment. Extensive experiments across state-of-the-art multimodal language models and GUI agents reveal a substantial reasoning--acting gap, highlighting persistent challenges in fine-grained GUI manipulation despite strong planning capabilities.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!