마르코프 연쇄 관점에서 본 GFlowNet에서의 탐험-활용 균형 제어
Controlling Exploration-Exploitation in GFlowNets via Markov Chain Perspectives
생성적 흐름 네트워크(GFlowNet)의 목적 함수는 암묵적으로 순방향 및 역방향 정책의 균형을 유지하며, 이는 학습 과정에서 탐험-활용 균형을 제한할 수 있습니다. 본 연구는 GFlowNet과 마르코프 연쇄 간의 연관성을 심층적으로 분석하여, GFlowNet 목적 함수와 마르코프 연쇄의 가역성 간의 동등성을 증명함으로써 이러한 제약의 근원을 밝히고, 마르코프 연쇄의 특성을 GFlowNet에 적용할 수 있는 프레임워크를 제시합니다. 이러한 이론적 발견을 바탕으로, 조정 가능한 매개변수 α를 통해 혼합 방식을 일반화한 α-GFN을 제안합니다. 이러한 일반화는 탐험-활용 동역학에 대한 직접적인 제어를 가능하게 하여 모드 발견 능력을 향상시키고, 동시에 고유한 흐름으로의 수렴을 보장합니다. 다양한 벤치마크(Set, Bit Sequence, 분자 생성 등)에서 α-GFN 목적 함수는 기존의 GFlowNet 목적 함수보다 일관되게 우수한 성능을 보였으며, 발견된 모드의 수가 최대 10배 증가했습니다.
Generative Flow Network (GFlowNet) objectives implicitly fix an equal mixing of forward and backward policies, potentially constraining the exploration-exploitation trade-off during training. By further exploring the link between GFlowNets and Markov chains, we establish an equivalence between GFlowNet objectives and Markov chain reversibility, thereby revealing the origin of such constraints, and provide a framework for adapting Markov chain properties to GFlowNets. Building on these theoretical findings, we propose $α$-GFNs, which generalize the mixing via a tunable parameter $α$. This generalization enables direct control over exploration-exploitation dynamics to enhance mode discovery capabilities, while ensuring convergence to unique flows. Across various benchmarks, including Set, Bit Sequence, and Molecule Generation, $α$-GFN objectives consistently outperform previous GFlowNet objectives, achieving up to a $10 \times$ increase in the number of discovered modes.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.