마르코프 체인 관점을 통한 GFlowNet의 탐색-활용 조절
Controlling Exploration-Exploitation in GFlowNets via Markov Chain Perspectives
Generative Flow Network (GFlowNet)의 목적 함수는 순방향 및 역방향 정책의 균등한 혼합을 암묵적으로 고정하여, 학습 중 탐색-활용(exploration-exploitation) 트레이드오프를 잠재적으로 제한합니다. 본 논문에서는 GFlowNet과 마르코프 체인 사이의 연결 고리를 더 깊이 탐구함으로써 GFlowNet 목적 함수와 마르코프 체인 가역성(reversibility) 간의 동치성을 확립하여 이러한 제약의 원인을 밝히고, 마르코프 체인의 속성을 GFlowNet에 적용하는 프레임워크를 제공합니다. 이러한 이론적 발견을 바탕으로, 우리는 조정 가능한 파라미터 $α$를 통해 혼합을 일반화하는 $α$-GFN을 제안합니다. 이러한 일반화는 유일한 흐름(unique flows)으로의 수렴을 보장하면서도, 탐색-활용 역학을 직접 제어할 수 있게 하여 모드(mode) 발견 능력을 강화합니다. Set, Bit Sequence, Molecule Generation을 포함한 다양한 벤치마크에서 $α$-GFN 목적 함수는 기존 GFlowNet 목적 함수보다 일관되게 뛰어난 성능을 보였으며, 발견된 모드의 수를 최대 10배까지 증가시켰습니다.
Generative Flow Network (GFlowNet) objectives implicitly fix an equal mixing of forward and backward policies, potentially constraining the exploration-exploitation trade-off during training. By further exploring the link between GFlowNets and Markov chains, we establish an equivalence between GFlowNet objectives and Markov chain reversibility, thereby revealing the origin of such constraints, and provide a framework for adapting Markov chain properties to GFlowNets. Building on these theoretical findings, we propose $α$-GFNs, which generalize the mixing via a tunable parameter $α$. This generalization enables direct control over exploration-exploitation dynamics to enhance mode discovery capabilities, while ensuring convergence to unique flows. Across various benchmarks, including Set, Bit Sequence, and Molecule Generation, $α$-GFN objectives consistently outperform previous GFlowNet objectives, achieving up to a $10 \times$ increase in the number of discovered modes.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.