도메인별 일반화 정책 학습: 효율적이고 강력한 Q-값 함수 학습에 관한 연구 (기술 부록 포함 확장 버전)
Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)
도메인별 일반화 정책 학습은 계획 기반 학습의 핵심적인 과제입니다. 기존의 접근 방식은 지도 학습을 사용하여 교사 계획기가 생성한 최적 계획을 기반으로 그래프 신경망으로 표현된 상태-값 함수를 학습합니다. 본 연구에서는 Q-값 함수를 학습하는 것을 제안합니다. 이러한 정책은 주어진 상태에 대해 평가하는 데 훨씬 저렴하며, 모든 후속 상태가 아닌 현재 상태만 처리하면 됩니다. 놀랍게도, Q-값의 기본적인 지도 학습은 교사 계획기가 수행한 행동과 수행하지 않은 행동을 구별하지 못하기 때문에 성능이 좋지 않습니다. 우리는 이러한 구분을 강제하는 정규화 항을 사용하여 이 문제를 해결했으며, 그 결과 Q-값 정책은 10개의 다양한 도메인에서 상태-값 정책보다 일관되게 더 우수한 성능을 보이며, LAMA-first와 같은 계획기 수준의 경쟁력을 갖습니다.
Learning per-domain generalizing policies is a key challenge in learning for planning. Standard approaches learn state-value functions represented as graph neural networks using supervised learning on optimal plans generated by a teacher planner. In this work, we advocate for learning Q-value functions instead. Such policies are drastically cheaper to evaluate for a given state, as they need to process only the current state rather than every successor. Surprisingly, vanilla supervised learning of Q-values performs poorly as it does not learn to distinguish between the actions taken and those not taken by the teacher. We address this by using regularization terms that enforce this distinction, resulting in Q-value policies that consistently outperform state-value policies across a range of 10 domains and are competitive with the planner LAMA-first.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.