고해상도 GUI 에이전트의 효율성을 위한 공간-시간 토큰 가지치기
Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents
순수 시각 기반 GUI 에이전트는 보편적인 상호 작용 기능을 제공하지만, 고해상도 스크린샷과 과거 경로에 내재된 막대한 공간-시간 중복으로 인해 심각한 효율성 저하를 겪습니다. 기존 압축 방식에서 발생하는 두 가지 주요 문제점을 파악했습니다. 첫째, 시간적 불일치 문제로, 균일한 과거 정보 인코딩이 에이전트의 '희미해지는 기억' 주의 패턴과 일치하지 않습니다. 둘째, 공간 위상 충돌 문제로, 비정형적인 가지치기가 정확한 좌표 지정을 위해 필요한 그리드 구조의 무결성을 저해하여 공간적 환상을 유발합니다. 이러한 문제점을 해결하기 위해, 고해상도 GUI 탐색에 특화된 학습이 필요 없는 프레임워크인 GUIPruner를 제안합니다. GUIPruner는 감쇠 기반 크기 조절을 통해 과거 정보의 중복을 제거하는 Temporal-Adaptive Resolution (TAR)과, 상호 작용 영역과 의미 기반 지점을 우선적으로 처리하면서 전체 레이아웃을 보호하는 Stratified Structure-aware Pruning (SSP)을 결합합니다. 다양한 벤치마크에서 광범위하게 평가한 결과, GUIPruner는 일관적으로 최첨단 성능을 달성하며, 대규모 모델에서 발생하는 성능 저하를 효과적으로 방지합니다. 특히, Qwen2-VL-2B 모델에서 저희 방법은 FLOPs를 3.4배 줄이고 시각 인코딩 지연 시간을 3.3배 단축하면서 원래 성능의 94% 이상을 유지하여, 최소한의 자원 소비로 실시간, 고정밀 탐색을 가능하게 합니다.
Pure-vision GUI agents provide universal interaction capabilities but suffer from severe efficiency bottlenecks due to the massive spatiotemporal redundancy inherent in high-resolution screenshots and historical trajectories. We identify two critical misalignments in existing compression paradigms: the temporal mismatch, where uniform history encoding diverges from the agent's "fading memory" attention pattern, and the spatial topology conflict, where unstructured pruning compromises the grid integrity required for precise coordinate grounding, inducing spatial hallucinations. To address these challenges, we introduce GUIPruner, a training-free framework tailored for high-resolution GUI navigation. It synergizes Temporal-Adaptive Resolution (TAR), which eliminates historical redundancy via decay-based resizing, and Stratified Structure-aware Pruning (SSP), which prioritizes interactive foregrounds and semantic anchors while safeguarding global layout. Extensive evaluations across diverse benchmarks demonstrate that GUIPruner consistently achieves state-of-the-art performance, effectively preventing the collapse observed in large-scale models under high compression. Notably, on Qwen2-VL-2B, our method delivers a 3.4x reduction in FLOPs and a 3.3x speedup in vision encoding latency while retaining over 94% of the original performance, enabling real-time, high-precision navigation with minimal resource consumption.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.