2601.07779v1 Jan 12, 2026 cs.MA

OS-Symphony: 견고하고 범용적인 컴퓨터 사용 에이전트를 위한 통합 프레임워크

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

Qiushi Sun
Qiushi Sun
Citations: 81
h-index: 4
Fangzhi Xu
Fangzhi Xu
Citations: 581
h-index: 9
Zichen Ding
Zichen Ding
Citations: 1,414
h-index: 10
Kanzhi Cheng
Kanzhi Cheng
Nanjing University
Citations: 1,115
h-index: 11
Zehao Li
Zehao Li
Citations: 755
h-index: 5
Bowen Yang
Bowen Yang
University of Science and Technology of China
Citations: 749
h-index: 4
Kaiming Jin
Kaiming Jin
Citations: 14
h-index: 2
Zhenyu Wu
Zhenyu Wu
Citations: 1,177
h-index: 9
Jingjing Xie
Jingjing Xie
Citations: 754
h-index: 5
Qingyun Li
Qingyun Li
Citations: 270
h-index: 7
Yian Wang
Yian Wang
Citations: 410
h-index: 4
Yu Qiao
Yu Qiao
Citations: 546
h-index: 7
Zun Wang
Zun Wang
Citations: 11
h-index: 1
Zhaoyang Liu
Zhaoyang Liu
HKUST
Citations: 5,006
h-index: 20
Zhaoyang Liu
Zhaoyang Liu
Citations: 49
h-index: 4

비전-언어 모델(VLMs)은 컴퓨터 사용 에이전트(CUAs) 발전에 크게 기여했지만, 현재 프레임워크는 장기적인 작업 흐름에서의 안정성 및 새로운 환경에서의 일반화 능력에 어려움을 겪고 있습니다. 이러한 한계는 세부적인 시각적 컨텍스트 관리 부족과 시각 정보를 활용한 튜토리얼 검색 기능의 부재에서 비롯됩니다. 이러한 격차를 해소하기 위해, 우리는 견고한 자동화를 위한 두 가지 핵심 혁신을 조정하는 통합 프레임워크인 OS-Symphony를 소개합니다. (1) 마일스톤 기반의 장기 기억을 활용하여 작업 흐름 수준의 자체 수정 기능을 제공하고, 장기 작업에서 발생하는 시각적 컨텍스트 손실을 효과적으로 완화하는 Reflection-Memory Agent, (2) 멀티모달 검색 기능을 탑재하여 시각 정보와 연계된 실시간 튜토리얼을 생성하고, 이를 통해 새로운 환경에서의 정확성을 높이는 Versatile Tool Agents입니다. 실험 결과는 OS-Symphony가 다양한 모델 크기에서 상당한 성능 향상을 가져다주며, 세 가지 온라인 벤치마크에서 새로운 최고 성능을 달성했으며, 특히 OSWorld에서 65.84%의 정확도를 기록했음을 보여줍니다.

Original Abstract

While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.

10 Citations
3 Influential
10 Altmetric
66.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!