2605.15120v1 May 14, 2026 cs.RO

CLOVER: 폐루프 가치 추정 및 순위 결정 방법 - 완전 자율 주행 계획

CLOVER: Closed-Loop Value Estimation \& Ranking for End-to-End Autonomous Driving Planning

Yan Wang
Yan Wang
Citations: 26
h-index: 3
Can Chen
Can Chen
Citations: 560
h-index: 8
Yuguang Yang
Yuguang Yang
Citations: 888
h-index: 11
Sining Ang
Sining Ang
Citations: 10
h-index: 1

완전 자율 주행 계획 시스템은 일반적으로 단일 로깅된 경로를 모방하여 학습되지만, 안전성, 실현 가능성, 진행 상황 및 편안함을 측정하는 규칙 기반 계획 지표를 사용하여 평가됩니다. 이는 학습-평가 불일치를 야기합니다. 즉, 로깅된 경로와 가까운 경로는 계획 규칙을 위반할 수 있지만, 데모 경로에서 멀리 떨어진 다른 경로는 유효하고 높은 점수를 받을 수 있습니다. 이러한 불일치는 특히 후보 집합 선택 계획기의 성능에 큰 영향을 미칩니다. 해당 계획기의 성능은 후보 집합의 다양성과 점수 부여기의 순위 결정 품질에 따라 달라지기 때문입니다. 본 논문에서는 완전 자율 주행 계획을 위한 폐루프 가치 추정 및 순위 결정 프레임워크인 CLOVER를 제안합니다. CLOVER는 경량화된 생성기-점수 부여기 구조를 따릅니다. 생성기는 다양한 후보 경로를 생성하고, 점수 부여기는 추론 시 계획 지표의 부분 점수를 예측하여 경로를 순위 결정합니다. 단일 경로 모방을 넘어 제안 범위를 확장하기 위해 CLOVER는 평가기를 통해 필터링된 유사 전문가 경로를 구성하고, 생성기를 집합 수준의 다양성 감독 하에 학습합니다. 그런 다음, 보수적인 폐루프 자기 증류를 수행합니다. 점수 부여기는 생성된 경로에 대한 실제 평가기 부분 점수에 맞춰 학습되고, 생성기는 안정성 규제를 통해 교사 선택된 상위 $k$개 경로 및 벡터-파레토 목표를 향해 개선됩니다. 불완전한 점수 부여기가 생성기를 개선할 수 있는 조건을 분석한 결과, 점수 부여기가 선택한 목표가 실제 평가기 하에서 풍부해지고 업데이트가 보수적일 때, 점수 부여기를 통한 개선이 신뢰할 수 있음을 확인했습니다. NAVSIM 데이터셋에서 CLOVER는 94.5 PDMS 및 90.4 EPDMS를 달성하여 새로운 최고 성능을 기록했습니다. 더 어려운 NavHard 데이터셋에서는 48.3 EPDMS를 달성하여 가장 높은 보고된 결과와 일치했습니다. 추가적인 nuScenes 개방형 루프 평가에서 CLOVER는 비교된 방법 중에서 가장 낮은 L2 오차 및 충돌률을 달성했습니다. 코드 및 데이터는 https://github.com/WilliamXuanYu/CLOVER 에서 공개될 예정입니다.

Original Abstract

End-to-end autonomous driving planners are commonly trained by imitating a single logged trajectory, yet evaluated by rule-based planning metrics that measure safety, feasibility, progress, and comfort. This creates a training--evaluation mismatch: trajectories close to the logged path may violate planning rules, while alternatives farther from the demonstration can remain valid and high-scoring. The mismatch is especially limiting for proposal-selection planners, whose performance depends on candidate-set coverage and scorer ranking quality. We propose CLOVER, a Closed-LOop Value Estimation and Ranking framework for end-to-end autonomous driving planning. CLOVER follows a lightweight generator--scorer formulation: a generator produces diverse candidate trajectories, and a scorer predicts planning-metric sub-scores to rank them at inference time. To expand proposal support beyond single-trajectory imitation, CLOVER constructs evaluator-filtered pseudo-expert trajectories and trains the generator with set-level coverage supervision. It then performs conservative closed-loop self-distillation: the scorer is fitted to true evaluator sub-scores on generated proposals, while the generator is refined toward teacher-selected top-$k$ and vector-Pareto targets with stability regularization. We analyze when an imperfect scorer can improve the generator, showing that scorer-mediated refinement is reliable when scorer-selected targets are enriched under the true evaluator and updates remain conservative. On NAVSIM, CLOVER achieves 94.5 PDMS and 90.4 EPDMS, establishing a new state of the art. On the more challenging NavHard split, it obtains 48.3 EPDMS, matching the strongest reported result. On supplementary nuScenes open-loop evaluation, CLOVER achieves the lowest L2 error and collision rate among compared methods. Code data will be released at https://github.com/WilliamXuanYu/CLOVER.

1 Citations
0 Influential
28.9657359028 Altmetric
145.8 Score
Original PDF
1

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!