2605.05413v1 May 06, 2026 cs.AI

역사에서 국가로: LLM 에이전트를 위한 상수 컨텍스트 기반 기술 학습

From History to State: Constant-Context Skill Learning for LLM Agents

Pu Zhao
Pu Zhao
Citations: 41
h-index: 2
X. Wang
X. Wang
Citations: 66
h-index: 2
Haoyang Xie
Haoyang Xie
Citations: 49
h-index: 3
Feng Ju
Feng Ju
Citations: 46
h-index: 2
Yancheng Wang
Yancheng Wang
Citations: 101
h-index: 4

대규모 언어 모델(LLM) 에이전트는 웹 브라우저, 파일, 코드 및 도구를 운영하는 데 점점 더 많이 사용되고 있으며, 이는 개인 비서에 자연스럽게 적용될 수 있는 기술입니다. 그러나 개인 에이전트는 개인 정보 보호와 기능 간의 균형이라는 어려움에 직면합니다. 클라우드 모델은 다단계 워크플로우를 잘 수행하지만, 민감한 중간 컨텍스트를 외부 API에 노출할 수 있는 반면, 로컬 모델은 개인 정보를 보호하지만 신뢰성이 떨어집니다. 또한, 두 가지 설정 모두 긴 기술 프롬프트와 증가하는 기록으로 인해 반복적으로 비용이 발생합니다. 본 연구에서는 상수 컨텍스트 기반 기술 학습 방법을 제안합니다. 이는 반복적인 에이전트 워크플로우를 위한 컨텍스트-가중치 프레임워크입니다. 재사용 가능한 절차는 경량 작업 패밀리 모듈에서 학습되며, 추론은 현재 관찰 및 작은 상태 블록에만 의존합니다. 결정적인 추적기는 작업 진행 상황을 기반으로 이 상태 블록을 생성하고 정렬된 하위 목표 보상을 제공하므로, 각 모듈은 단계별 지도 학습(SFT)으로 훈련하고 온라인 강화 학습(RL)을 통해 개선할 수 있습니다. ALFWorld, WebShop 및 SciWorld 데이터셋에서, Qwen3-4B, Qwen3-8B 및 Llama-3.1-8B 모델을 사용하여 에이전트를 학습시킨 결과, 우수한 성능을 달성했습니다. Qwen3-8B 모델에서, SFT+RL을 사용하여 ALFWorld에서 89.6%의 새로운 성공률, WebShop에서 76.8%의 성공률, SciWorld에서 66.4%의 새로운 성공률을 달성했습니다. 이러한 결과는 기존의 강력한 에이전트 훈련 결과와 일치하거나 능가하며, 제어된 ReAct 프롬프트 기반의 기존 방법보다 턴당 프롬프트 토큰을 2~7배 줄였습니다. 이는 절차적 컨텍스트를 프롬프트에서 가중치로 이동시킬 수 있음을 보여줍니다.

Original Abstract

Large language model (LLM) agents are increasingly used to operate browsers, files, code and tools, making personal assistants a natural deployment target. Yet personal agents face a privacy-cost-capability tension: cloud models execute multi-step workflows well but expose sensitive intermediate context to external APIs, while local models preserve privacy but remain less reliable. Both settings also pay repeatedly for long skill prompts and growing histories. We propose constant-context skill learning, a context-to-weights framework for recurring agent workflows: reusable procedures are learned in lightweight task-family modules, while inference conditions only on the current observation and a compact state block. A deterministic tracker renders this state block from task progress and supplies aligned subgoal rewards, so each module can be trained with step-level SFT and refined through online RL. Across ALFWorld, WebShop, and SciWorld, our agents achieve strong performance across Qwen3-4B, Qwen3-8B and Llama-3.1-8B. With Qwen3-8B, SFT+RL reaches 89.6\% unseen success on ALFWorld, 76.8\% success on WebShop, and 66.4\% unseen success on SciWorld. They match or exceed strong published agent-training results while reducing prompt tokens per turn by 2--7$\times$ relative to controlled ReAct prompting baselines, showing that procedural context can be moved from prompts into weights.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!