Crab: 에이전트 샌드박스를 위한 의미론 기반 체크포인트/복구 런타임
Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes
자율 에이전트는 파일 시스템, 프로세스 및 런타임 아티팩트를 포함하는 샌드박스 컨테이너 및 마이크로 VM을 통해 작동하며, 이러한 상태는 오류 허용, 스팟 실행, 강화 학습 시뮬레이션 분기 및 안전한 롤백을 위해 체크포인트 및 복구(C/R)가 필요합니다. 그러나 기존 방식은 두 가지 극단으로 나뉩니다. 애플리케이션 수준 복구는 채팅 기록을 보존하지만 OS 측면의 영향을 놓치고, 완전한 턴 단위 체크포인트는 정확하지만 높은 밀도의 환경에서 너무 비용이 많이 듭니다. 근본적인 원인은 에이전트-OS 간의 의미론적 격차입니다. 에이전트 프레임워크는 도구 호출은 인식하지만 OS 효과는 인식하지 못하고, OS는 상태 변경을 인식하지만 복구의 관련성을 판단할 수 있는 턴 수준의 컨텍스트가 부족합니다. 이러한 격차는 막대한 희소성을 숨깁니다. 에이전트의 턴 중 75% 이상이 복구와 관련된 상태를 생성하지 않으므로 대부분의 체크포인트가 불필요합니다. Crab(Checkpoint-and-Restore for Agent SandBoxes)은 에이전트나 C/R 백엔드를 수정하지 않고 이 격차를 해소하는 투명한 호스트 측 런타임입니다. eBPF 기반 검사기는 각 턴의 OS에서 보이는 효과를 분류하여 체크포인트의 세분성을 결정합니다. 코디네이터는 체크포인트와 턴 경계를 정렬하고, C/R을 LLM 대기 시간과 겹치게 합니다. 그리고 호스트 범위의 엔진은 공동 위치한 샌드박스 간에 체크포인트 트래픽을 예약합니다. 셸 사용이 많고 코드 수정 작업에서 Crab은 복구 정확도를 8% (채팅만)에서 100%로 향상시키고, 체크포인트 트래픽을 최대 87%까지 줄이며, 오류 없는 실행 시간의 1.9% 이내로 유지합니다.
Autonomous agents act through sandboxed containers and microVMs whose state spans filesystems, processes, and runtime artifacts. Checkpoint and restore (C/R) of this state is needed for fault tolerance, spot execution, RL rollout branching, and safe rollback-yet existing approaches fall into two extremes: application-level recovery preserves chat history but misses OS-side effects, while full per-turn checkpointing is correct but too expensive under dense co-location. The root cause is an agent-OS semantic gap: agent frameworks see tool calls but not their OS effects; the OS sees state changes but lacks turn-level context to judge recovery relevance. This gap hides massive sparsity: over 75% of agent turns produce no recovery-relevant state, so most checkpoints are unnecessary. Crab (Checkpoint-and-Restore for Agent SandBoxes) is a transparent host-side runtime that bridges this gap without modifying agents or C/R backends. An eBPF-based inspector classifies each turn's OS-visible effects to decide checkpoint granularity; a coordinator aligns checkpoints with turn boundaries and overlaps C/R with LLM wait time; and a host-scoped engine schedules checkpoint traffic across co-located sandboxes. On shell-intensive and code-repair workloads, Crab raises recovery correctness from 8% (chat-only) to 100%, cuts checkpoint traffic by up to 87%, and stays within 1.9% of fault-free execution time.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.