추출된 경험이 LLM 에이전트의 추론 성능 향상에 미치는 영향
Decocted Experience Improves Test-Time Inference in LLM Agents
모델 파라미터를 업데이트하지 않고 LLM의 성능을 향상시키는 방법에 대한 관심이 높아지고 있습니다. 그중 한 가지 방법은 추론 시간 스케일링으로, 추론 시간을 늘려 성능을 향상시키는 것입니다 (예: 더 긴 추론, 샘플링 또는 검색). 그러나 복잡한 추론 및 에이전트 기반 작업의 경우, 단순히 추론 시간을 늘리면 비용이 크게 증가하고 최적의 탐색을 하지 못하여 예산이 낭비될 수 있습니다. 본 논문에서는 LLM 성능 향상을 위한 보완적인 방법으로 *컨텍스트*를 탐구하고, *경험*을 통해 추론을 안내하는 더 나은 입력 데이터를 어떻게 구성할 수 있는지 체계적으로 연구합니다. 효과적인 컨텍스트 구성은 *추출된 경험*에 크게 의존한다는 것을 보여줍니다. 경험을 활용한 에이전트에 대한 자세한 분석을 통해, 경험으로부터 컨텍스트를 어떻게 얻고, 축적된 경험에 따른 성능 변화는 어떻게 나타나는지, 좋은 컨텍스트의 특징은 무엇이며, 어떤 데이터 구조가 컨텍스트 구성에 가장 적합한지 연구합니다. 본 연구에서는 *추출된 경험*이 효과적인 컨텍스트 구성의 핵심 메커니즘임을 밝힙니다. 추출된 경험은 경험에서 핵심을 추출하고, 이를 일관성 있게 구성하며, 중요한 정보를 검색하여 효과적인 컨텍스트를 구축합니다. 이러한 결과는 수학적 추론, 웹 브라우징, 소프트웨어 엔지니어링 등 다양한 추론 및 에이전트 기반 작업에서 검증되었습니다.
There is growing interest in improving LLMs without updating model parameters. One well-established direction is test-time scaling, where increased inference-time computation (e.g., longer reasoning, sampling, or search) is used to improve performance. However, for complex reasoning and agentic tasks, naively scaling test-time compute can substantially increase cost and still lead to wasted budget on suboptimal exploration. In this paper, we explore \emph{context} as a complementary scaling axis for improving LLM performance, and systematically study how to construct better inputs that guide reasoning through \emph{experience}. We show that effective context construction critically depends on \emph{decocted experience}. We present a detailed analysis of experience-augmented agents, studying how to derive context from experience, how performance scales with accumulated experience, what characterizes good context, and which data structures best support context construction. We identify \emph{decocted experience} as a key mechanism for effective context construction: extracting essence from experience, organizing it coherently, and retrieving salient information to build effective context. We validate our findings across reasoning and agentic tasks, including math reasoning, web browsing, and software engineering.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.