LOCA-bench: 제어 가능하고 극한의 문맥 증가 상황에서의 언어 에이전트 벤치마킹
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
거대언어모델(LLM)은 장기적으로 실행되는 실제 작업을 수행하는 능력이 점점 더 향상되고 있습니다. 그러나 문맥(context)의 양이 증가함에 따라 신뢰성이 저하되는 경우가 많으며, 이를 "문맥 부패(context rot)" 현상이라고 합니다. 기존의 장문 문맥 벤치마크들은 주로 긴 지문에서 정보를 검색하는 모델의 능력을 평가하는 단일 단계 설정에 초점을 맞추고 있습니다. 하지만 실제 시나리오에서 LLM은 동적으로 증가하는 문맥 하에서 환경을 탐색하고, 지시와 계획을 따르며, 유용한 정보를 추출하고, 올바른 행동을 예측하는 에이전트로서 역할을 수행해야 하는 경우가 많습니다. 이러한 환경에서 언어 에이전트를 평가하기 위해 우리는 LOCA-bench(장문 문맥 에이전트를 위한 벤치마크)를 소개합니다. 작업 프롬프트가 주어지면, LOCA-bench는 환경 상태에 대한 자동화되고 확장 가능한 제어를 활용하여 에이전트의 문맥 길이를 조절합니다. 이러한 설계는 기본 작업의 의미(semantics)를 고정한 채 통제된 방식으로 문맥 길이를 잠재적으로 무한대까지 확장할 수 있게 합니다. LOCA-bench는 다양한 문맥 관리 전략을 포함하여, 모델과 스캐폴드(scaffold)의 조합으로서 언어 에이전트를 평가합니다. 환경 상태가 복잡해질수록 에이전트의 성능은 일반적으로 저하되지만, 고급 문맥 관리 기법을 사용하면 전반적인 성공률을 크게 향상시킬 수 있습니다. 우리는 장문 문맥 및 에이전트 시나리오에서 모델과 스캐폴드를 평가할 수 있는 플랫폼을 제공하기 위해 LOCA-bench를 오픈 소스로 공개합니다: https://github.com/hkust-nlp/LOCA-bench
Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.