2605.03308v1 May 05, 2026 cs.AI

대규모 언어 모델의 여행 계획 기능 재검토

Revisiting the Travel Planning Capabilities of Large Language Models

Lan-Zhe Guo
Lan-Zhe Guo
Citations: 66
h-index: 3
Jiejing Shao
Jiejing Shao
Citations: 514
h-index: 13
Yu-Feng Li
Yu-Feng Li
Citations: 154
h-index: 7
Bo-Wen Zhang
Bo-Wen Zhang
Citations: 56
h-index: 4
Jin Ye
Jin Ye
Citations: 129
h-index: 3
Peng-Yu Hua
Peng-Yu Hua
Citations: 0
h-index: 0
Jiankun Cao
Jiankun Cao
Citations: 0
h-index: 0

여행 계획은 장기적인 추론을 위한 중요한 과제이며, 이는 대규모 언어 모델(LLM)의 상당한 한계를 드러냅니다. 그러나 기존의 벤치마크 및 평가는 주로 최종 계획을 전체적으로 평가하기 때문에 해석 가능성이 부족하고 실패의 근본 원인을 분석하기 어렵습니다. 이러한 간극을 해소하기 위해, 우리는 여행 계획을 제약 조건 추출, 도구 활용, 계획 생성, 오류 식별 및 오류 수정의 다섯 가지 기본적인 하위 기능으로 분해했습니다. 우리는 오라클 중간 컨텍스트를 활용하여 분리된 평가 프로토콜을 구현함으로써, 연쇄적인 오류로 인한 노이즈 없이 이러한 구성 요소의 개별적인 성능 범위를 엄격하게 측정합니다. 우리의 결과는 성능의 뚜렷한 차이를 보여줍니다. LLM은 명시적인 제약 조건을 추출하는 데 능숙하지만, 암시적이고 개방형 세계의 요구 사항을 추론하는 데 어려움을 겪습니다. 또한, 계획 생성에서 구조적 편향을 보이며, 과도한 민감성과 오류 지속성을 특징으로 하는 비효과적인 자체 수정 능력을 보입니다. 이러한 결과는 LLM의 추론 및 계획 능력을 향상시키기 위한 구체적인 방향을 제시합니다.

Original Abstract

Travel planning serves as a critical task for long-horizon reasoning, exposing significant deficits in LLMs. However, existing benchmarks and evaluations primarily assess final plans in an end-to-end manner, which lacks interpretability and makes it difficult to analyze the root causes of failures. To bridge this gap, we decompose travel planning into five constituent atomic sub-capabilities, including \emph{Constraint Extraction}, \emph{Tool Use}, \emph{Plan Generation}, \emph{Error Identification}, and \emph{Error Correction}. We implement a decoupled evaluation protocol leveraging oracle intermediate contexts to rigorously isolate these components, thereby measuring the atomic performance boundary without the noise of cascading errors. Our results highlight a clear contrast in performance: while LLMs are proficient in extracting explicit constraints, they struggle to infer implicit, open-world requirements. Furthermore, they exhibit structural biases in plan generation and suffer from ineffective self-correction, characterized by excessive sensitivity and erroneous persistence. These findings offer precise directions for improving LLM reasoning and planning abilities.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!