2601.07779v1 Jan 12, 2026 cs.MA

OS-Symphony: 견고하고 범용적인 컴퓨터 사용 에이전트를 위한 통합 프레임워크

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

Qiushi Sun
Qiushi Sun
Citations: 60
h-index: 3
Fangzhi Xu
Fangzhi Xu
Citations: 499
h-index: 8
Zichen Ding
Zichen Ding
Citations: 1,034
h-index: 10
Kanzhi Cheng
Kanzhi Cheng
Nanjing University
Citations: 962
h-index: 10
Zehao Li
Zehao Li
Citations: 457
h-index: 4
Bowen Yang
Bowen Yang
Citations: 461
h-index: 4
Kaiming Jin
Kaiming Jin
Citations: 7
h-index: 2
Zhenyu Wu
Zhenyu Wu
Citations: 831
h-index: 8
Zhaoyang Liu
Zhaoyang Liu
Citations: 487
h-index: 5
Jingjing Xie
Jingjing Xie
Citations: 454
h-index: 3
Zhoumianze Liu
Zhoumianze Liu
Citations: 295
h-index: 4
Qingyun Li
Qingyun Li
Citations: 231
h-index: 6
Yian Wang
Yian Wang
Citations: 351
h-index: 3
Yu Qiao
Yu Qiao
Citations: 476
h-index: 6
Zun Wang
Zun Wang
Citations: 3
h-index: 1

비전-언어 모델(VLMs)은 컴퓨터 사용 에이전트(CUAs) 발전에 크게 기여했지만, 현재 프레임워크는 장기적인 작업 흐름에서의 안정성 및 새로운 환경에서의 일반화 능력에 어려움을 겪고 있습니다. 이러한 한계는 세부적인 시각적 컨텍스트 관리 부족과 시각 정보를 활용한 튜토리얼 검색 기능의 부재에서 비롯됩니다. 이러한 격차를 해소하기 위해, 우리는 견고한 자동화를 위한 두 가지 핵심 혁신을 조정하는 통합 프레임워크인 OS-Symphony를 소개합니다. (1) 마일스톤 기반의 장기 기억을 활용하여 작업 흐름 수준의 자체 수정 기능을 제공하고, 장기 작업에서 발생하는 시각적 컨텍스트 손실을 효과적으로 완화하는 Reflection-Memory Agent, (2) 멀티모달 검색 기능을 탑재하여 시각 정보와 연계된 실시간 튜토리얼을 생성하고, 이를 통해 새로운 환경에서의 정확성을 높이는 Versatile Tool Agents입니다. 실험 결과는 OS-Symphony가 다양한 모델 크기에서 상당한 성능 향상을 가져다주며, 세 가지 온라인 벤치마크에서 새로운 최고 성능을 달성했으며, 특히 OSWorld에서 65.84%의 정확도를 기록했음을 보여줍니다.

Original Abstract

While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.

3 Citations
1 Influential
5 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!