DeepPlanning: 검증 가능한 제약 조건이 있는 장기적 에이전트 플래닝 벤치마킹
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
에이전트 평가의 초점이 장기적(long-horizon) 작업으로 이동하고 있지만, 대부분의 벤치마크는 진정한 계획 능력을 요구하는 전역적 제약 최적화(예: 시간 및 금전적 예산)보다는 여전히 국소적인 단계별 추론을 강조하고 있다. 한편, 기존 LLM 플래닝 벤치마크들은 실제 환경의 전형적인 특징인 능동적 정보 수집과 세밀한 국소적 제약 조건을 충분히 반영하지 못하고 있다. 이를 해결하기 위해 우리는 실용적인 장기 에이전트 플래닝을 위한 도전적인 벤치마크인 DeepPlanning을 소개한다. 이 벤치마크는 능동적 정보 습득, 국소적 제약 추론, 그리고 전역적 제약 최적화를 필요로 하는 수일간의 여행 계획 및 다품목 쇼핑 작업을 포함한다. DeepPlanning을 이용한 평가 결과, 최첨단 에이전트 LLM조차도 이러한 문제 해결에 어려움을 겪는 것으로 나타났으며, 이는 더 나은 효과성-효율성 균형을 달성하기 위해 신뢰할 수 있는 명시적 추론 패턴과 병렬 도구 사용이 중요함을 시사한다. 또한 오류 분석을 통해 장기적 계획 범위에서 에이전트 LLM을 개선하기 위한 유망한 방향을 제시한다. 우리는 향후 연구를 지원하기 위해 코드와 데이터를 오픈소스로 공개한다.
While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.
AI Analysis
Korean Summary
Key Innovations
- 단순 도구 실행을 넘어 시간, 예산, 상호 의존성 등 '전역적 제약 최적화(Global Constrained Optimization)' 능력을 핵심 평가 요소로 도입
- 기본 골격 생성 후 개인화 및 환경 제약 조건을 단계적으로 주입하여 난이도를 조절하는 '계층적 작업 생성(Layered Task Generation)' 파이프라인 구축
- 에이전트가 숨겨진 제약 조건을 찾기 위해 API를 통해 환경을 탐색해야 하는 '능동적 정보 수집(Proactive Information Acquisition)' 요구 환경 설계
- 오프라인 샌드박스 데이터베이스와 코드 기반 검증기를 활용하여 재현 가능하고 객관적인 자동 평가 체계 마련
Learning & Inference Impact
본 연구는 LLM의 추론 및 학습 방향에 중요한 시사점을 제공합니다. 실험 결과, 'Thinking' 프로세스가 포함된 추론 모델(예: OpenAI o3, Claude-thinking)이 비추론 모델보다 장기 계획 작업에서 월등한 성능을 보였습니다. 이는 복잡한 제약 조건 하에서 계획을 수립할 때, 시행착오를 줄이고 도구 사용을 최적화하는 명시적인 내부 추론 단계가 필수적임을 시사합니다. 학습 관점에서는 모델이 국소적인 도구 호출 성공에 만족하지 않고, 전체 계획의 정합성을 검증하고 역추적(Backtracking)할 수 있는 능력을 강화해야 함을 보여줍니다. 또한, 에이전트가 불충분한 정보를 스스로 인지하고 추가 정보를 탐색하도록 하는 데이터셋 및 강화학습 전략의 필요성을 강조합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.