FlowPIE: 흐름 기반 문헌 탐색을 통한 테스트 시간 과학적 아이디어 진화
FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration
인공지능 기반 자율 연구에서 과학적 아이디어 생성(SIG)은 매우 중요하지만, 기존 방식은 종종 정적인 검색-생성 패러다임에 의해 제약되어, 균일하고 다양성이 부족한 아이디어가 생성되는 경향이 있습니다. 본 연구에서는 문헌 탐색과 아이디어 생성을 공진화하는 프로세스로 취급하는, 밀접하게 결합된 검색-생성 프레임워크인 FlowPIE를 제안합니다. FlowPIE는 GFlowNets에서 영감을 받은 흐름 기반 몬테카를로 트리 탐색(MCTS)을 통해 문헌 경로를 확장하며, LLM 기반 생성 보상 모델(GRM)에 의해 평가된 현재 아이디어의 품질을 지도 신호로 활용하여 적응적 검색을 수행하고 다양하고 고품질의 초기 집단을 구성합니다. 이 초기 집단을 기반으로, FlowPIE는 아이디어 생성을 테스트 시간의 아이디어 진화 프로세스로 모델링하며, 선택, 교차, 변이 연산을 적용하고, isolation island 패러다임과 GRM 기반 적합도 계산을 활용하여 다양한 분야의 지식을 통합합니다. 이는 매개변수 지식과 정적인 문헌에 대한 과도한 의존으로 인해 발생하는 정보 격리를 효과적으로 완화합니다. 광범위한 실험 결과는 FlowPIE가 강력한 LLM 기반 및 에이전트 기반 프레임워크보다 더 높은 참신성, 실현 가능성 및 다양성을 가진 아이디어를 지속적으로 생성하며, 테스트 시간 동안 보상 스케일링을 가능하게 한다는 것을 보여줍니다.
Scientific idea generation (SIG) is critical to AI-driven autonomous research, yet existing approaches are often constrained by a static retrieval-then-generation paradigm, leading to homogeneous and insufficiently divergent ideas. In this work, we propose FlowPIE, a tightly coupled retrieval-generation framework that treats literature exploration and idea generation as a co-evolving process. FlowPIE expands literature trajectories via a flow-guided Monte Carlo Tree Search (MCTS) inspired by GFlowNets, using the quality of current ideas assessed by an LLM-based generative reward model (GRM) as a supervised signal to guide adaptive retrieval and construct a diverse, high-quality initial population. Based on this population, FlowPIE models idea generation as a test-time idea evolution process, applying selection, crossover, and mutation with the isolation island paradigm and GRM-based fitness computation to incorporate cross-domain knowledge. It effectively mitigates the information cocoons arising from over-reliance on parametric knowledge and static literature. Extensive evaluations demonstrate that FlowPIE consistently produces ideas with higher novelty, feasibility and diversity compared to strong LLM-based and agent-based frameworks, while enabling reward scaling during test time.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.