Gym-Anything: 모든 소프트웨어를 에이전트 환경으로 변환하는 방법
Gym-Anything: Turn any Software into an Agent Environment
컴퓨터 사용 에이전트는 다양한 디지털 경제 활동을 지원할 잠재력을 가지고 있습니다. 그러나 현재 연구는 주로 제한된 범위의 소프트웨어, 예를 들어 기본적인 전자 상거래 및 운영 체제 설정 작업과 같이 경제적 가치가 낮은 단기 과제에 집중되어 있습니다. 그 주요 원인은 복잡한 소프트웨어에 대한 환경을 구축하는 데 상당한 시간과 인적 노력이 필요하며, 따라서 확장성이 떨어진다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 모든 소프트웨어를 상호 작용 가능한 컴퓨터 사용 환경으로 변환할 수 있는 프레임워크인 Gym-Anything을 소개합니다. 우리는 환경 구축 자체를 다중 에이전트 작업으로 정의합니다. 코딩 에이전트는 설정 스크립트를 작성하고, 실제 데이터를 다운로드하며, 소프트웨어를 구성하고, 올바른 설정에 대한 증거를 생성합니다. 독립적인 감사 에이전트는 환경 설정에 대한 증거를 품질 체크리스트와 비교하여 검증합니다. 미국 GDP 데이터를 기반으로 경제적으로 가치 있는 직업 분류 체계를 사용하여, 이 파이프라인을 200개의 광범위한 직업 분야를 포괄하는 소프트웨어 애플리케이션에 적용했습니다. 그 결과, CUA-World는 의료 과학, 천문학, 공학 및 엔터프라이즈 시스템 등 다양한 분야를 아우르는 1만 개 이상의 장기 과제 모음으로 구성되었으며, 각 과제는 현실적인 데이터와 함께 학습 및 테스트 데이터 세트로 구성되어 있습니다. 또한, CUA-World는 종종 500단계를 초과하는 어려운 장기 벤치마크인 CUA-World-Long을 포함합니다. 학습 데이터 세트에서 성공적인 실행 경로를 추출하여 20억 개의 파라미터를 가진 시각-언어 모델을 학습시킨 결과, 동일한 크기의 모델보다 성능이 뛰어났습니다. 또한, 테스트 시에도 동일한 감사 원칙을 적용하여 별도의 시각-언어 모델이 완료된 실행 경로를 검토하고, 개선해야 할 부분을 피드백하여, CUA-World-Long에서 Gemini-3-Flash의 성능을 11.5%에서 14.0%로 향상시켰습니다. 우리는 모든 코드, 인프라 및 벤치마크 데이터를 공개하여 실제 컴퓨터 사용 에이전트에 대한 향후 연구를 촉진하고자 합니다.
Computer-use agents hold the promise of assisting in a wide range of digital economic activities. However, current research has largely focused on short-horizon tasks over a limited set of software with limited economic value, such as basic e-commerce and OS-configuration tasks. A key reason is that creating environments for complex software requires significant time and human effort, and therefore does not scale. To address this, we introduce Gym-Anything, a framework for converting any software into an interactive computer-use environment. We frame environment creation itself as a multi-agent task: a coding agent writes setup scripts, downloads real-world data, and configures the software, while producing evidence of correct setup. An independent audit agent then verifies evidence for the environment setup against a quality checklist. Using a taxonomy of economically valuable occupations grounded in U.S. GDP data, we apply this pipeline to 200 software applications with broad occupational coverage. The result is CUA-World, a collection of over 10K long-horizon tasks spanning domains from medical science and astronomy to engineering and enterprise systems, each configured with realistic data along with train and test splits. CUA-World also includes CUA-World-Long, a challenging long-horizon benchmark with tasks often requiring over 500 steps, far exceeding existing benchmarks. Distilling successful trajectories from the training split into a 2B vision-language model outperforms models 2$\times$ its size. We also apply the same auditing principle at test time: a separate VLM reviews completed trajectories and provides feedback on what remains, improving Gemini-3-Flash on CUA-World-Long from 11.5% to 14.0%. We release all code, infrastructure, and benchmark data to facilitate future research in realistic computer-use agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.