2603.17544v1 Mar 18, 2026 cs.AI

도메인별 일반화 정책 학습: 효율적이고 강력한 Q-값 함수 학습에 관한 연구 (기술 부록 포함 확장 버전)

Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)

Timo P. Gros
Timo P. Gros
Citations: 195
h-index: 10
Nicola J. Muller
Nicola J. Muller
Citations: 0
h-index: 0
Moritz Oster
Moritz Oster
Citations: 0
h-index: 0
Isabel Valera
Isabel Valera
Citations: 7
h-index: 1
J¨org Hoffmann
J¨org Hoffmann
Citations: 5
h-index: 1

도메인별 일반화 정책 학습은 계획 기반 학습의 핵심적인 과제입니다. 기존의 접근 방식은 지도 학습을 사용하여 교사 계획기가 생성한 최적 계획을 기반으로 그래프 신경망으로 표현된 상태-값 함수를 학습합니다. 본 연구에서는 Q-값 함수를 학습하는 것을 제안합니다. 이러한 정책은 주어진 상태에 대해 평가하는 데 훨씬 저렴하며, 모든 후속 상태가 아닌 현재 상태만 처리하면 됩니다. 놀랍게도, Q-값의 기본적인 지도 학습은 교사 계획기가 수행한 행동과 수행하지 않은 행동을 구별하지 못하기 때문에 성능이 좋지 않습니다. 우리는 이러한 구분을 강제하는 정규화 항을 사용하여 이 문제를 해결했으며, 그 결과 Q-값 정책은 10개의 다양한 도메인에서 상태-값 정책보다 일관되게 더 우수한 성능을 보이며, LAMA-first와 같은 계획기 수준의 경쟁력을 갖습니다.

Original Abstract

Learning per-domain generalizing policies is a key challenge in learning for planning. Standard approaches learn state-value functions represented as graph neural networks using supervised learning on optimal plans generated by a teacher planner. In this work, we advocate for learning Q-value functions instead. Such policies are drastically cheaper to evaluate for a given state, as they need to process only the current state rather than every successor. Surprisingly, vanilla supervised learning of Q-values performs poorly as it does not learn to distinguish between the actions taken and those not taken by the teacher. We address this by using regularization terms that enforce this distinction, resulting in Q-value policies that consistently outperform state-value policies across a range of 10 domains and are competitive with the planner LAMA-first.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!