AlphaZero에서의 효율적인 학습을 위한 후회 기반 탐색 제어
Regret-Guided Search Control for Efficient Learning in AlphaZero
강화 학습(RL) 에이전트는 뛰어난 성능을 달성하지만, 여전히 인간에 비해 학습 효율성이 현저히 떨어집니다. RL 에이전트는 유용한 정보를 얻기 위해 많은 자체 대국을 수행해야 하지만, 인간은 종종 몇 번의 대국만으로도 빠르게 학습하며, 실수가 발생한 상태를 반복적으로 재방문합니다. 이를 탐색 제어(search control)라고 하며, 초기 상태가 아닌 가치 있는 상태에서 시작하는 것을 목표로 합니다. AlphaZero에서 기존 연구인 Go-Exploit는 자체 대국 또는 탐색 트리에서 과거 상태를 샘플링하여 이 아이디어를 적용하지만, 학습 잠재력에 관계없이 모든 상태를 동일하게 취급합니다. 본 논문에서는 에이전트의 평가가 실제 결과와 가장 차이가 나는, 즉 '후회(regret)'가 큰 상태를 식별하는 데 학습하는 후회 네트워크(regret network)를 AlphaZero에 추가한 Regret-Guided Search Control (RGSC)을 제안합니다. 이러한 상태는 자체 대국 경로와 몬테카를로 트리 탐색(MCTS) 노드에서 수집되어 우선순위 큐(prioritized regret buffer)에 저장되며, 새로운 시작 위치로 재사용됩니다. 9x9 Go, 10x10 Othello, 11x11 Hex 게임에서 RGSC는 AlphaZero와 Go-Exploit보다 각각 평균 77점, 89점의 Elo 점수를 더 높게 달성했습니다. 잘 학습된 9x9 Go 모델을 사용하여 학습할 때, RGSC는 KataGo에 대한 승률을 69.3%에서 78.2%로 더욱 향상시키는 반면, 다른 두 모델은 개선을 보이지 않았습니다. 이러한 결과는 RGSC가 AlphaZero 학습의 효율성과 견고성을 향상시키는 효과적인 탐색 제어 메커니즘을 제공한다는 것을 보여줍니다. 본 논문의 코드는 https://rlg.iis.sinica.edu.tw/papers/rgsc 에서 확인할 수 있습니다.
Reinforcement learning (RL) agents achieve remarkable performance but remain far less learning-efficient than humans. While RL agents require extensive self-play games to extract useful signals, humans often need only a few games, improving rapidly by repeatedly revisiting states where mistakes occurred. This idea, known as search control, aims to restart from valuable states rather than always from the initial state. In AlphaZero, prior work Go-Exploit applies this idea by sampling past states from self-play or search trees, but it treats all states equally, regardless of their learning potential. We propose Regret-Guided Search Control (RGSC), which extends AlphaZero with a regret network that learns to identify high-regret states, where the agent's evaluation diverges most from the actual outcome. These states are collected from both self-play trajectories and MCTS nodes, stored in a prioritized regret buffer, and reused as new starting positions. Across 9x9 Go, 10x10 Othello, and 11x11 Hex, RGSC outperforms AlphaZero and Go-Exploit by an average of 77 and 89 Elo, respectively. When training on a well-trained 9x9 Go model, RGSC further improves the win rate against KataGo from 69.3% to 78.2%, while both baselines show no improvement. These results demonstrate that RGSC provides an effective mechanism for search control, improving both efficiency and robustness of AlphaZero training. Our code is available at https://rlg.iis.sinica.edu.tw/papers/rgsc.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.