정책으로서의 탐색: 안전하고 견고하며 효율적인 에이전트를 위한 외부화되고 검증 가능한 정책으로서의 로그 기반 게이트드 행동 트리
Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents
자율 LLM 에이전트는 모델 가중치 및 기록 내에 장기적인 정책이 암묵적으로 존재하고, 안전 기능이 사후적으로 추가되기 때문에 실패합니다. 우리는 '정책으로서의 탐색(Traversal-as-Policy)'을 제안합니다. 이는 안전한 OpenHands 실행 로그를 단일 실행 가능한 게이트드 행동 트리(GBT)로 변환하고, 작업이 처리 범위 내에 있을 때 제어 정책으로서 트리 탐색을 활용하며, 제약 없는 생성 방식을 사용하지 않습니다. 각 노드는 성공적인 경로에서 추출되고 병합 검사를 거친 상태 기반 액션 매크로를 인코딩합니다. 안전하지 않은 경로에 관련된 매크로는 구조화된 도구 컨텍스트 및 제한된 기록에 대한 결정적인 사전 실행 게이트를 설정하며, 경험 기반의 단조성을 통해 이전에 거부된 안전하지 않은 컨텍스트가 다시 허용되지 않도록 업데이트됩니다. 런타임 시, 경량화된 탐색기는 기본 모델의 의도를 자식 매크로와 연결하고, 전역 및 노드 로컬 게이팅 하에서 매크로를 하나씩 실행합니다. 정체될 경우, 위험을 고려한 최단 경로 복구를 통해 실행 가능한 성공 노드로 이동하며, 방문된 경로는 간결한 메모리 역할을 하며 기록 재생을 대체합니다. OpenHands 샌드박스 환경에서 15개 이상의 소프트웨어, 웹, 추론, 안전/보안 벤치마크를 사용하여 평가한 결과, GBT는 성공률을 향상시키면서 위반 사항을 0에 가깝게 줄이고 비용을 절감합니다. SWE-bench Verified (프로토콜 A, 500개 문제)에서 GBT-SE는 성공률을 34.6%에서 73.6%로 높이고, 위반 사항을 2.8%에서 0.2%로 줄이며, 토큰/문자 사용량을 208k/820k에서 126k/490k로 감소시켰습니다. 동일한 변환된 트리를 사용하여 8B 크기의 실행기는 SWE-bench Verified (14.0%에서 58.8%) 및 WebArena (9.1%에서 37.3%)에서 성공률을 두 배 이상 향상시켰습니다.
Autonomous LLM agents fail because long-horizon policy remains implicit in model weights and transcripts, while safety is retrofitted post hoc. We propose Traversal-as-Policy: distill sandboxed OpenHands execution logs into a single executable Gated Behavior Tree (GBT) and treat tree traversal -- rather than unconstrained generation -- as the control policy whenever a task is in coverage. Each node encodes a state-conditioned action macro mined and merge-checked from successful trajectories; macros implicated by unsafe traces attach deterministic pre-execution gates over structured tool context and bounded history, updated under experience-grounded monotonicity so previously rejected unsafe contexts cannot be re-admitted. At runtime, a lightweight traverser matches the base model's intent to child macros, executes one macro at a time under global and node-local gating, and when stalled performs risk-aware shortest-path recovery to a feasible success leaf; the visited path forms a compact spine memory that replaces transcript replay. Evaluated in a unified OpenHands sandbox on 15+ software, web, reasoning, and safety/security benchmarks, GBT improves success while driving violations toward zero and reducing cost. On SWE-bench Verified (Protocol A, 500 issues), GBT-SE raises success from 34.6% to 73.6%, reduces violations from 2.8% to 0.2%, and cuts token/character usage from 208k/820k to 126k/490k; with the same distilled tree, 8B executors more than double success on SWE-bench Verified (14.0%58.8%) and WebArena (9.1%37.3%).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.