장기 생산성 시뮬레이션을 위한 대규모 합성 컴퓨터 시스템
Synthetic Computers at Scale for Long-Horizon Productivity Simulation
현실적인 장기 생산성 연구는 사용자별 컴퓨터 환경에 크게 의존하며, 대부분의 작업 컨텍스트는 디렉토리 구조와 콘텐츠가 풍부한 자료들을 통해 저장되고 구성됩니다. 이러한 생산성 시나리오를 위한 합성 데이터 생성 규모를 확장하기 위해, 우리는 '대규모 합성 컴퓨터 시스템(Synthetic Computers at Scale)'이라는 확장 가능한 방법론을 제안합니다. 이 방법론은 현실적인 폴더 계층 구조와 콘텐츠가 풍부한 자료(예: 문서, 스프레드시트, 프레젠테이션)를 갖춘 환경을 생성합니다. 각 합성 컴퓨터 환경에 대해 장기 시뮬레이션을 수행합니다. 하나의 에이전트는 해당 컴퓨터 사용자에 특화된 생산성 목표를 생성하며, 이는 여러 개의 전문적인 결과물을 필요로 하고 약 한 달 동안의 인간 작업에 해당합니다. 다른 에이전트는 해당 사용자의 역할을 수행하며, 파일 시스템을 탐색하여 정보를 얻거나, 시뮬레이션된 협력자와 협력하거나, 전문적인 결과물을 생성하는 등 목표가 완료될 때까지 컴퓨터 환경에서 작업을 지속합니다. 초기 실험에서, 우리는 1,000개의 합성 컴퓨터를 생성하고 장기 시뮬레이션을 수행했습니다. 각 시뮬레이션은 8시간 이상의 에이전트 실행 시간을 필요로 하며, 평균적으로 2,000번 이상의 단계를 거칩니다. 이러한 시뮬레이션은 풍부한 경험적 학습 신호를 생성하며, 그 효과는 인-도메인 및 아웃-오브-도메인 생산성 평가에서 에이전트 성능의 상당한 향상을 통해 검증되었습니다. 페르소나는 수십억 규모로 존재하므로, 이 방법론은 충분한 컴퓨팅 자원을 활용하여 수백만 또는 수십억 개의 합성 사용자 환경으로 확장될 수 있으며, 이를 통해 다양한 직업, 역할, 컨텍스트, 환경 및 생산성 요구 사항을 보다 포괄적으로 다룰 수 있습니다. 우리는 확장 가능한 합성 컴퓨터 생성과 대규모 시뮬레이션이 장기 생산성 시나리오에서 에이전트의 자기 개선 및 에이전트 강화 학습을 위한 강력한 기반이 될 수 있다고 주장합니다.
Realistic long-horizon productivity work is strongly conditioned on user-specific computer environments, where much of the work context is stored and organized through directory structures and content-rich artifacts. To scale synthetic data creation for such productivity scenarios, we introduce Synthetic Computers at Scale, a scalable methodology for creating such environments with realistic folder hierarchies and content-rich artifacts (e.g., documents, spreadsheets, and presentations). Conditioned on each synthetic computer, we run long-horizon simulations: one agent creates productivity objectives that are specific to the computer's user and require multiple professional deliverables and about a month of human work; another agent then acts as that user and keeps working across the computer -- for example, navigating the filesystem for grounding, coordinating with simulated collaborators, and producing professional artifacts -- until these objectives are completed. In preliminary experiments, we create 1,000 synthetic computers and run long-horizon simulations on them; each run requires over 8 hours of agent runtime and spans more than 2,000 turns on average. These simulations produce rich experiential learning signals, whose effectiveness is validated by significant improvements in agent performance on both in-domain and out-of-domain productivity evaluations. Given that personas are abundant at billion scale, this methodology can in principle scale to millions or even billions of synthetic user worlds with sufficient compute, enabling broader coverage of diverse professions, roles, contexts, environments, and productivity needs. We argue that scalable synthetic computer creation, together with at-scale simulations, is highly promising as a foundational substrate for agent self-improvement and agentic reinforcement learning in long-horizon productivity scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.