Yunjue 에이전트 기술 보고서: 개방형 작업을 위한 완전 재현 가능한 제로 스타트 현장 자가 진화 에이전트 시스템
Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks
기존의 에이전트 시스템은 작업 분포가 지속적으로 변화하고 외부 감독이 부족한 개방형 환경에서 어려움을 겪는 경우가 많습니다. 정적인 도구 세트나 오프라인 훈련에 의존하는 방식은 이러한 역동성을 따라가지 못하며, 이로 인해 시스템의 능력 경계가 경직되고 불확실해집니다. 이를 해결하기 위해 우리는 '현장 자가 진화(In-Situ Self-Evolving)' 패러다임을 제안합니다. 이 접근 방식은 순차적인 작업 상호작용을 연속적인 경험의 흐름으로 간주하여, 시스템이 정답(ground-truth) 레이블 없이도 단기 실행 피드백을 장기적이고 재사용 가능한 능력으로 정제할 수 있게 합니다. 이 프레임워크 내에서 우리는 도구 진화를 검증 가능한 이진 피드백 신호를 제공하는 능력 확장의 핵심 경로로 식별합니다. 또한, 우리는 이 프레임워크를 기반으로 새로운 과제들을 해결하기 위해 도구를 반복적으로 합성, 최적화 및 재사용하는 시스템인 Yunjue 에이전트를 개발했습니다. 진화 효율성을 최적화하기 위해 '병렬 배치 진화(Parallel Batch Evolution)' 전략도 추가로 도입했습니다. 제로 스타트 설정에서 5가지 다양한 벤치마크에 대한 실증적 평가를 수행한 결과, 독점적인 베이스라인 대비 상당한 성능 향상을 입증했습니다. 아울러 보완적인 웜 스타트(warm-start) 평가를 통해 축적된 일반 지식이 새로운 도메인으로 원활하게 전이될 수 있음을 확인했습니다. 마지막으로, 기존 최적화의 훈련 손실(training loss)과 유사한 기능을 수행하는 진화 수렴 모니터링을 위한 새로운 지표를 제안합니다. 우리는 회복 탄력적이고 자가 진화하는 지능에 대한 후속 연구를 촉진하기 위해 코드베이스, 시스템 트레이스 및 진화된 도구를 오픈 소스로 공개합니다.
Conventional agent systems often struggle in open-ended environments where task distributions continuously drift and external supervision is scarce. Their reliance on static toolsets or offline training lags behind these dynamics, leaving the system's capability boundaries rigid and unknown. To address this, we propose the In-Situ Self-Evolving paradigm. This approach treats sequential task interactions as a continuous stream of experience, enabling the system to distill short-term execution feedback into long-term, reusable capabilities without access to ground-truth labels. Within this framework, we identify tool evolution as the critical pathway for capability expansion, which provides verifiable, binary feedback signals. Within this framework, we develop Yunjue Agent, a system that iteratively synthesizes, optimizes, and reuses tools to navigate emerging challenges. To optimize evolutionary efficiency, we further introduce a Parallel Batch Evolution strategy. Empirical evaluations across five diverse benchmarks under a zero-start setting demonstrate significant performance gains over proprietary baselines. Additionally, complementary warm-start evaluations confirm that the accumulated general knowledge can be seamlessly transferred to novel domains. Finally, we propose a novel metric to monitor evolution convergence, serving as a function analogous to training loss in conventional optimization. We open-source our codebase, system traces, and evolved tools to facilitate future research in resilient, self-evolving intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.