두 번 측정하고 한 번 클릭: 강화 학습을 통한 GUI 정렬을 위한 제안자와 시각적 비평기의 공진화
Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding
그래픽 사용자 인터페이스(GUI) 정렬은 자연어 지침을 정확한 픽셀 좌표에 매핑하는 것을 요구합니다. 그러나 시각적으로 동질적인 요소와 밀집된 레이아웃으로 인해, 모델은 일반적으로 의미적 의도를 파악하지만 정확한 위치 추정에는 어려움을 겪습니다. 샘플링 시도 횟수를 늘리는(Pass@k) 것은 잠재적인 이점을 보여주지만, 기하학적 클러스터링에서 파생된 정적 일관성 전략은 모델의 예측이 공간적으로 분산되는 경향이 있어 제한적인 개선 효과만 나타냅니다. 본 논문에서는 정적 일관성 전략을 자체 제안에 대한 비평을 통해 최적의 대상을 선택하는 학습 가능한 선택 메커니즘으로 대체합니다. 모델의 정렬 및 비평 능력 간의 상당한 차이를 고려하여, 제안-비평 프레임워크를 통해 두 모델을 공동으로 발전시킵니다. 이를 위해, 제안자와 비평자의 학습 목표를 동적으로 균형 있게 조절하는 적응적 공진화 강화 학습 패러다임을 도입합니다. 이 접근 방식은 제안자의 다양한 출력 결과가 비평기의 견고성을 향상시키고, 비평기의 성숙된 식별 능력이 제안자의 광범위한 공간 탐색 잠재력을 발휘하도록 하여, 양 모델의 상호 보완적인 발전과 공진화를 촉진함으로써 다양한 복잡한 인터페이스 레이아웃에 대한 일반화 성능을 보장합니다. 6개의 벤치마크를 사용한 광범위한 실험 결과, 제안된 방법은 정렬 정확도와 비평기 신뢰성을 크게 향상시키는 것으로 나타났습니다.
Graphical User Interface (GUI) grounding requires mapping natural language instructions to precise pixel coordinates. However, due to visually homogeneous elements and dense layouts, models typically grasp semantic intent yet struggle with achieving precise localization. While scaling sampling attempts (Pass@k) reveals potential gains, static self-consistency strategies derived from geometric clustering often yield limited improvements, as the model's predictions tend to be spatially dispersed. In this paper, we propose replacing static consistency strategies with a learnable selection mechanism that selects the optimal target by critiquing its own proposals rendered on the screenshot. Given the significant disparity between the model's grounding and critiquing capabilities, we propose a co-evolving Propose-then-Critic framework. To jointly optimize these, we introduce a maturity-aware adaptive co-evolutionary reinforcement learning paradigm. This approach dynamically balances the training objectives of proposer and critic, where the diversity of the proposer's outputs enhances critic robustness, while the critic's maturing discrimination capability conversely unlocks the proposer's potential for extensive spatial exploration, fostering the mutual reinforcement and co-evolution of both capabilities, thereby ensuring generalizability to adapt to diverse and complex interface layouts. Extensive experiments over 6 benchmarks show that our method significantly enhances both grounding accuracy and critic reliability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.