2601.01569v3 Jan 04, 2026 cs.AI

CaveAgent: LLM을 상태 기반 런타임 연산자로 변환하는 프레임워크

CaveAgent: Transforming LLMs into Stateful Runtime Operators

Maohao Ran
Maohao Ran
Citations: 77
h-index: 3
Zhenglin Wan
Zhenglin Wan
Citations: 5
h-index: 1
Cooper Lin
Cooper Lin
Citations: 0
h-index: 0
Yanting Zhang
Yanting Zhang
Citations: 0
h-index: 0
Hongwei Fan
Hongwei Fan
Citations: 40
h-index: 4
Yibo Xu
Yibo Xu
Citations: 50
h-index: 4
Lang Feng
Lang Feng
Citations: 470
h-index: 8
Fuchao Yang
Fuchao Yang
Citations: 5
h-index: 1
Jingxuan Wu
Jingxuan Wu
Citations: 3
h-index: 1
Yiqiao Huang
Yiqiao Huang
Citations: 1
h-index: 1
Chendong Ma
Chendong Ma
Citations: 68
h-index: 4
Dailing Jiang
Dailing Jiang
Citations: 0
h-index: 0
Sihui Han
Sihui Han
Citations: 1
h-index: 1
Bo An
Bo An
Citations: 4
h-index: 2
Yike Guo
Yike Guo
Citations: 0
h-index: 0
Jun Song
Jun Song
Citations: 1
h-index: 1
Hongyu Xin
Hongyu Xin
Citations: 24
h-index: 1
Beier Luo
Beier Luo
Citations: 6
h-index: 1
Yaxin Zhou
Yaxin Zhou
Citations: 63
h-index: 3
Wangbo Zhao
Wangbo Zhao
Citations: 251
h-index: 8
Lijie Yang
Lijie Yang
Princeton University
Citations: 356
h-index: 6
Jianbo Deng
Jianbo Deng
Citations: 345
h-index: 9

LLM 기반 에이전트는 복잡한 작업 수행 능력이 점점 더 향상되고 있지만, 현재 에이전트 시스템은 여전히 텍스트 중심적인 패러다임에 제약을 받으며, 불안정한 다중 턴 의존성과 컨텍스트 드리프트로 인해 장기적인 작업 수행에 어려움을 겪습니다. 본 논문에서는 CaveAgent라는 프레임워크를 제시합니다. CaveAgent는 도구 사용 방식을 "LLM을 텍스트 생성기로 활용"하는 방식에서 "LLM을 런타임 연산자로 활용"하는 방식으로 전환합니다. CaveAgent는 이중 스트림 아키텍처를 도입하여 기존의 패러다임을 역전시킵니다. 즉, LLM의 텍스트 컨텍스트를 주요 작업 공간으로 간주하고 도구를 보조적인 요소로 사용하는 대신, CaveAgent는 지속적인 Python 런타임을 핵심 상태 저장소로 설정하고, 경량의 의미론적 스트림을 이를 조정하는 오케스트레이터로 활용합니다. CaveAgent는 코드 생성을 활용하여 상호 의존적인 하위 작업(예: 루프, 조건문)을 단일 단계로 해결할 뿐만 아니라, 기존의 텍스트 기반 접근 방식과 달리, 턴을 넘어 지속되는 복잡한 Python 객체(예: 데이터프레임, 데이터베이스 연결)를 주입, 조작 및 검색하는 "상태 기반 런타임 관리" 기능을 제공합니다. 또한, CaveAgent는 에이전트 기술 개방 표준을 확장하는 런타임 통합 기술 관리 시스템을 제공하여 실행 가능한 기술 주입을 통해 생태계 상호 운용성을 지원합니다. 이러한 지속성 메커니즘은 고정밀 외부 메모리 역할을 하여 다중 턴 상호 작용에서 컨텍스트 드리프트를 줄이고, 정보 손실 없이 처리된 데이터를 다운스트림 애플리케이션에 보존합니다. 실험 결과, CaveAgent는 어려운 벤치마크에서 일관된 성능 향상을 보였으며, JSON 기반 및 코드 기반 에이전트에서 발생하는 컨텍스트 오버플로우를 유발하는 데이터 크기를 처리할 수 있습니다. 또한, 접근 가능한 런타임 상태는 프로그래밍 방식으로 검증 가능한 피드백을 제공하여, 인간의 주석 없이 자동 평가 및 보상 신호 생성을 가능하게 하며, 검증 가능한 보상을 갖는 강화 학습(RLVR) 분야의 미래 연구를 위한 기반을 마련합니다.

Original Abstract

LLM-based agents are increasingly capable of complex task execution, yet current agentic systems remain constrained by text-centric paradigms that struggle with long-horizon tasks due to fragile multi-turn dependencies and context drift. We present CaveAgent, a framework that shifts tool use from ``LLM-as-Text-Generator'' to ``LLM-as-Runtime-Operator.'' CaveAgent introduces a dual-stream architecture that inverts the conventional paradigm: rather than treating the LLM's text context as the primary workspace with tools as auxiliary, CaveAgent elevates the persistent Python runtime as the central locus of state, with a lightweight semantic stream serving as its orchestrator. Beyond leveraging code generation to resolve interdependent sub-tasks (e.g., loops, conditionals) in a single step, CaveAgent introduces \textit{Stateful Runtime Management}: it injects, manipulates, and retrieves complex Python objects (e.g., DataFrames, database connections) that persist across turns, unlike existing code-based approaches that remain text-bound. CaveAgent further provides a runtime-integrated skill management system that extends the Agent Skills open standard, enabling ecosystem interoperability through executable skill injections. This persistence mechanism serves as a high-fidelity external memory that reduces context drift in multi-turn interactions and preserves processed data for downstream applications without information loss. Evaluations show consistent improvement across challenging benchmarks, enabling CaveAgent to handle data scales that cause context overflow in both JSON-based and code-based agents. The accessible runtime state further provides programmatically verifiable feedback, enabling automated evaluation and reward signal generation without human annotation and establishing a structural foundation for future research in Reinforcement Learning with Verifiable Rewards (RLVR).

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!