OSExpert: 탐색을 통한 전문가 수준의 기술 습득을 위한 컴퓨터 사용 에이전트
OSExpert: Computer-Use Agents Learning Professional Skills via Exploration
범용 컴퓨터 사용 에이전트는 다양한 디지털 환경에서 뛰어난 성능을 보여왔습니다. 그러나 새로운 벤치마크인 OSExpert-Eval은 이러한 에이전트가 여전히 인간 전문가만큼 유용하지 않음을 보여줍니다. 추론 시간 스케일링을 통해 적응이 가능하지만, 이러한 에이전트는 복잡한 작업을 비효율적으로 수행하고, 성능이 저하되며, 새로운 UI 환경에 대한 적응력이 떨어지고, 세밀한 동작 시퀀스를 처리하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, GUI 기반의 깊이 우선 탐색(GUI-DFS) 알고리즘을 도입하여 환경의 기본 기능을 포괄적으로 탐색하고 검증합니다. 에이전트는 이어서 기본 기술 간의 조합성을 활용하여 복합 작업에 대한 자체 학습 커리큘럼을 구성합니다. 세밀한 동작을 지원하기 위해, 에이전트가 탐색 과정에서 발견할 수 있도록 동작 원시 데이터베이스를 구축하고, 탐색이 완료되면 이를 기술 세트로 저장합니다. 학습된 기술을 사용하여 에이전트의 성능과 효율성을 향상시키는데, 이는 (1) 에이전트에게 즉시 사용할 수 있는 절차적 지식을 제공하여, 긴 경로에 대해 한 번만 계획하고 정확한 동작을 생성할 수 있도록 하고, (2) 에이전트가 자신의 능력 범위를 인식하여 추론 시간 스케일링을 더 일찍 종료할 수 있도록 하는 것입니다. 광범위한 실험 결과, 환경에서 학습된 에이전트는 전문가 수준의 컴퓨터 사용에 한 걸음 더 다가가며, OSExpert-Eval에서 약 20%의 성능 향상을 달성하고, 인간과의 효율성 격차를 약 80% 줄였습니다.
General-purpose computer-use agents have shown impressive performance across diverse digital environments. However, our new benchmark, OSExpert-Eval, indicates they remain far less helpful than human experts. Although inference-time scaling enables adaptation, these agents complete complex tasks inefficiently with degraded performance, transfer poorly to unseen UIs, and struggle with fine-grained action sequences. To solve the problem, we introduce a GUI-based depth-first search (GUI-DFS) exploration algorithm to comprehensively explore and verify an environment's unit functions. The agent then exploits compositionality between unit skills to self-construct a curriculum for composite tasks. To support fine-grained actions, we curate a database of action primitives for agents to discover during exploration; these are saved as a skill set once the exploration is complete. We use the learned skills to improve the agent's performance and efficiency by (1) enriching agents with ready-to-use procedural knowledge, allowing them to plan only once for long trajectories and generate accurate actions, and (2) enabling them to end inference-time scaling earlier by realizing their boundary of capabilities. Extensive experiments show that our environment-learned agent takes a meaningful step toward expert-level computer use, achieving a around 20 percent performance gain on OSExpert-Eval and closing the efficiency gap to humans by around 80 percent
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.