2602.02548v1 Jan 30, 2026 cs.LG

ToolTok: 효율적이고 일반화 가능한 GUI 에이전트를 위한 도구 토큰화

ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents

Ming Li
Ming Li
Citations: 13
h-index: 2
Xiaoce Wang
Xiaoce Wang
Citations: 10
h-index: 2
Gui‐bang Zhang
Gui‐bang Zhang
Citations: 1
h-index: 1
Junzhe Li
Junzhe Li
Citations: 254
h-index: 3
Jinzhe Tu
Jinzhe Tu
Citations: 8
h-index: 1
Chun Li
Chun Li
Citations: 24
h-index: 2

기존의 좌표 기반 단일 단계 시각적 위치 지정을 사용하는 GUI 에이전트 모델은 다양한 입력 해상도 및 종횡비에 대한 일반화에 어려움을 겪습니다. 대안적인 접근 방식은 좌표를 사용하지 않는 전략을 도입하지만, 심각한 데이터 부족으로 인해 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 저희는 GUI 에이전트를 위한 다단계 경로 탐색의 새로운 패러다임인 ToolTok을 제안합니다. ToolTok에서는 작업이 점진적인 도구 사용의 시퀀스로 모델링됩니다. 구체적으로, 저희는 인간의 상호 작용 습관에 맞춰 도구를 설계하고, 각 도구를 학습 가능한 토큰 임베딩으로 표현합니다. 제한적인 감독 하에서 효율적인 임베딩 학습을 가능하게 하기 위해, ToolTok은 의미론적 앵커링 메커니즘을 도입하여 각 도구를 의미적으로 관련된 개념과 연결하여 자연스러운 유도 편향을 제공합니다. 또한, 사전 학습된 대규모 언어 모델이 점진적으로 도구의 의미를 습득할 수 있도록, 세 가지 작업으로 구성된 쉬움에서 어려움으로의 커리큘럼을 구축했습니다. 여기에는 토큰 정의에 대한 질의 응답, 순수 텍스트 기반 도구 선택, 그리고 단순화된 시각적 경로 탐색이 포함됩니다. 여러 벤치마크에서 수행한 광범위한 실험 결과, ToolTok은 유사한 규모(4B)의 모델 중에서 뛰어난 성능을 보이며, 훨씬 더 큰 모델(235B)과도 경쟁력이 있습니다. 주목할 점은 이러한 결과가 다른 사후 훈련 접근 방식에 필요한 훈련 데이터의 1% 미만을 사용하여 얻어졌다는 것입니다. 또한, ToolTok은 아직 보지 못한 시나리오에서도 강력한 일반화 능력을 보여줍니다. 저희의 훈련 및 추론 코드는 https://github.com/ZephinueCode/ToolTok 에서 오픈 소스로 제공됩니다.

Original Abstract

Existing GUI agent models relying on coordinate-based one-step visual grounding struggle with generalizing to varying input resolutions and aspect ratios. Alternatives introduce coordinate-free strategies yet suffer from learning under severe data scarcity. To address the limitations, we propose ToolTok, a novel paradigm of multi-step pathfinding for GUI agents, where operations are modeled as a sequence of progressive tool usage. Specifically, we devise tools aligned with human interaction habits and represent each tool using learnable token embeddings. To enable efficient embedding learning under limited supervision, ToolTok introduces a semantic anchoring mechanism that grounds each tool with semantically related concepts as natural inductive bias. To further enable a pre-trained large language model to progressively acquire tool semantics, we construct an easy-to-hard curriculum consisting of three tasks: token definition question-answering, pure text-guided tool selection, and simplified visual pathfinding. Extensive experiments on multiple benchmarks show that ToolTok achieves superior performance among models of comparable scale (4B) and remains competitive with a substantially larger model (235B). Notably, these results are obtained using less than 1% of the training data required by other post-training approaches. In addition, ToolTok demonstrates strong generalization across unseen scenarios. Our training & inference code is open-source at https://github.com/ZephinueCode/ToolTok.

0 Citations
0 Influential
26.993061443341 Altmetric
135.0 Score
Original PDF
2

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!