차세대 캡챠: 인지적 격차를 활용한 확장 가능하고 다양한 GUI 에이전트 방어 기술
Next-Gen CAPTCHAs: Leveraging the Cognitive Gap for Scalable and Diverse GUI-Agent Defense
GUI 기반 에이전트의 빠른 발전으로 인해 기존 캡챠는 더 이상 효과적이지 않습니다. 이전의 벤치마크인 OpenCaptchaWorld는 다중 모드 에이전트를 평가하는 기준을 제시했지만, Gemini3-Pro-High 및 GPT-5.2-Xhigh와 같은 추론 능력이 뛰어난 모델의 최근 발전으로 인해 이러한 보안 장벽이 무너졌으며, “빙고”와 같은 복잡한 논리 퍼즐에서 90%의 성공률을 기록했습니다. 이에 대응하여, 우리는 차세대 웹을 고급 에이전트로부터 보호하기 위한 확장 가능한 방어 프레임워크인 Next-Gen CAPTCHAs를 소개합니다. 기존의 정적 데이터 세트와 달리, 당사의 벤치마크는 강력한 데이터 생성 파이프라인을 기반으로 구축되어 대규모 평가를 가능하게 하며, 특히 백엔드 지원 유형의 경우, 사실상 무한한 수의 캡챠 인스턴스를 생성할 수 있습니다. 우리는 인터랙티브한 인지, 기억, 의사 결정 및 행동에서 인간과 에이전트 간의 지속적인 “인지적 격차”를 활용합니다. 정교한 계획보다는 적응적인 직관을 요구하는 동적 작업을 설계함으로써, 우리는 생물학적 사용자(인간)와 인공 에이전트 간의 강력한 구분을 재확립하고, 에이전트 시대에 대한 확장 가능하고 다양한 방어 메커니즘을 제공합니다.
The rapid evolution of GUI-enabled agents has rendered traditional CAPTCHAs obsolete. While previous benchmarks like OpenCaptchaWorld established a baseline for evaluating multimodal agents, recent advancements in reasoning-heavy models, such as Gemini3-Pro-High and GPT-5.2-Xhigh have effectively collapsed this security barrier, achieving pass rates as high as 90% on complex logic puzzles like "Bingo". In response, we introduce Next-Gen CAPTCHAs, a scalable defense framework designed to secure the next-generation web against the advanced agents. Unlike static datasets, our benchmark is built upon a robust data generation pipeline, allowing for large-scale and easily scalable evaluations, notably, for backend-supported types, our system is capable of generating effectively unbounded CAPTCHA instances. We exploit the persistent human-agent "Cognitive Gap" in interactive perception, memory, decision-making, and action. By engineering dynamic tasks that require adaptive intuition rather than granular planning, we re-establish a robust distinction between biological users and artificial agents, offering a scalable and diverse defense mechanism for the agentic era.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.