2601.18137v1 Jan 26, 2026 cs.AI

DeepPlanning: 검증 가능한 제약 조건이 있는 장기적 에이전트 플래닝 벤치마킹

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Chenxu Lv
Chenxu Lv
Citations: 3,618
h-index: 2
Jianhong Tu
Jianhong Tu
Citations: 7,909
h-index: 7
Yinger Zhang
Yinger Zhang
Citations: 3,393
h-index: 1
Renhao Li
Renhao Li
Citations: 2
h-index: 1
Yang Su
Yang Su
Citations: 4
h-index: 1
Shutong Jiang
Shutong Jiang
Citations: 4
h-index: 1
Xudong Guo
Xudong Guo
Citations: 81
h-index: 4
Junyang Lin
Junyang Lin
Citations: 5,671
h-index: 17
Lianghao Deng
Lianghao Deng
Citations: 232
h-index: 2

에이전트 평가의 초점이 장기적(long-horizon) 작업으로 이동하고 있지만, 대부분의 벤치마크는 진정한 계획 능력을 요구하는 전역적 제약 최적화(예: 시간 및 금전적 예산)보다는 여전히 국소적인 단계별 추론을 강조하고 있다. 한편, 기존 LLM 플래닝 벤치마크들은 실제 환경의 전형적인 특징인 능동적 정보 수집과 세밀한 국소적 제약 조건을 충분히 반영하지 못하고 있다. 이를 해결하기 위해 우리는 실용적인 장기 에이전트 플래닝을 위한 도전적인 벤치마크인 DeepPlanning을 소개한다. 이 벤치마크는 능동적 정보 습득, 국소적 제약 추론, 그리고 전역적 제약 최적화를 필요로 하는 수일간의 여행 계획 및 다품목 쇼핑 작업을 포함한다. DeepPlanning을 이용한 평가 결과, 최첨단 에이전트 LLM조차도 이러한 문제 해결에 어려움을 겪는 것으로 나타났으며, 이는 더 나은 효과성-효율성 균형을 달성하기 위해 신뢰할 수 있는 명시적 추론 패턴과 병렬 도구 사용이 중요함을 시사한다. 또한 오류 분석을 통해 장기적 계획 범위에서 에이전트 LLM을 개선하기 위한 유망한 방향을 제시한다. 우리는 향후 연구를 지원하기 위해 코드와 데이터를 오픈소스로 공개한다.

Original Abstract

While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.

1 Citations
0 Influential
8.5 Altmetric
43.5 Score

AI Analysis

Korean Summary

이 논문은 LLM 에이전트의 장기 계획(Long-Horizon Planning) 능력을 평가하기 위한 새로운 벤치마크인 'DEEPPLANNING'을 소개합니다. 기존 벤치마크들이 단기적인 도구 사용에 집중한 것과 달리, 이 연구는 다일 여행 계획(Travel Planning)과 복합 쇼핑 계획(Shopping Planning)이라는 현실적이고 복잡한 시나리오를 통해 에이전트의 능동적 정보 수집, 국소적 제약 추론, 그리고 예산 및 시간과 같은 전역적 제약 최적화(Global Constrained Optimization) 능력을 평가합니다. 실험 결과, 최신 고성능 LLM조차 이러한 복합적인 문제 해결에 어려움을 겪고 있음이 드러났으며, 명시적인 추론(Reasoning) 능력이 강화된 모델이 더 효율적이고 정확한 계획을 수립한다는 점을 입증했습니다.

Key Innovations

  • 단순 도구 실행을 넘어 시간, 예산, 상호 의존성 등 '전역적 제약 최적화(Global Constrained Optimization)' 능력을 핵심 평가 요소로 도입
  • 기본 골격 생성 후 개인화 및 환경 제약 조건을 단계적으로 주입하여 난이도를 조절하는 '계층적 작업 생성(Layered Task Generation)' 파이프라인 구축
  • 에이전트가 숨겨진 제약 조건을 찾기 위해 API를 통해 환경을 탐색해야 하는 '능동적 정보 수집(Proactive Information Acquisition)' 요구 환경 설계
  • 오프라인 샌드박스 데이터베이스와 코드 기반 검증기를 활용하여 재현 가능하고 객관적인 자동 평가 체계 마련

Learning & Inference Impact

본 연구는 LLM의 추론 및 학습 방향에 중요한 시사점을 제공합니다. 실험 결과, 'Thinking' 프로세스가 포함된 추론 모델(예: OpenAI o3, Claude-thinking)이 비추론 모델보다 장기 계획 작업에서 월등한 성능을 보였습니다. 이는 복잡한 제약 조건 하에서 계획을 수립할 때, 시행착오를 줄이고 도구 사용을 최적화하는 명시적인 내부 추론 단계가 필수적임을 시사합니다. 학습 관점에서는 모델이 국소적인 도구 호출 성공에 만족하지 않고, 전체 계획의 정합성을 검증하고 역추적(Backtracking)할 수 있는 능력을 강화해야 함을 보여줍니다. 또한, 에이전트가 불충분한 정보를 스스로 인지하고 추가 정보를 탐색하도록 하는 데이터셋 및 강화학습 전략의 필요성을 강조합니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!