2601.10131v2 Jan 15, 2026 cs.AI

M^4olGen: 정밀한 다중 속성 제약 조건 하에서의 다중 에이전트 및 다단계 분자 생성

M^4olGen: Multi-Agent, Multi-Stage Molecular Generation under Precise Multi-Property Constraints

Yizhan Li
Yizhan Li
Citations: 15
h-index: 2
Florence Cloutier
Florence Cloutier
Citations: 0
h-index: 0
Sifan Wu
Sifan Wu
Citations: 82
h-index: 5
Ali Parviz
Ali Parviz
Citations: 0
h-index: 0
Glen Berseth
Glen Berseth
Citations: 126
h-index: 3
Yan Zhang
Yan Zhang
Citations: 1
h-index: 1
Bang Liu
Bang Liu
Citations: 63
h-index: 3
Boris Knyazev
Boris Knyazev
Citations: 3
h-index: 1

여러 물리화학적 속성에 대한 정밀한 수치 제약 조건을 만족하는 분자를 생성하는 것은 매우 중요하면서도 어려운 과제입니다. 대규모 언어 모델(LLM)은 표현력이 뛰어나지만, 외부 구조와 피드백 없이는 정밀한 다중 목적 제어 및 수치적 추론에 어려움을 겪습니다. 본 논문에서는 다중 속성 제약 하에서의 분자 생성을 위한 프래그먼트 수준의 검색 증강 2단계 프레임워크인 M^4olGen을 제안합니다. 1단계(프로토타입 생성)에서는 다중 에이전트 추론기가 검색 기반의 프래그먼트 수준 편집을 수행하여 실현 가능 영역 근처의 후보를 생성합니다. 2단계(강화학습 기반 미세 최적화)에서는 GRPO(Group Relative Policy Optimization)로 훈련된 프래그먼트 수준 최적화기가 단일 또는 다중 홉 정제를 적용하여, 편집 복잡도와 프로토타입으로부터의 편차를 조절하면서 목표에 대한 속성 오차를 명시적으로 최소화합니다. 프래그먼트 편집의 추론 사슬과 측정된 속성 변화량을 포함하는 대규모 자동 구축 데이터셋이 두 단계를 뒷받침하며, 이는 결정론적이고 재현 가능한 감독(supervision)과 제어 가능한 다중 홉 추론을 가능하게 합니다. 기존 연구와 달리, 본 프레임워크는 프래그먼트를 활용하여 분자에 대해 더 잘 추론하며, 수치 목표를 향한 제어 가능한 정제를 지원합니다. 두 가지 속성 제약 조건 세트(QED, LogP, 분자량 및 HOMO, LUMO)에 대한 생성 실험 결과, 유효성과 다중 속성 목표의 정밀한 충족 면에서 강력한 LLM 및 그래프 기반 알고리즘을 능가하는 일관된 성능 향상을 보였습니다.

Original Abstract

Generating molecules that satisfy precise numeric constraints over multiple physicochemical properties is critical and challenging. Although large language models (LLMs) are expressive, they struggle with precise multi-objective control and numeric reasoning without external structure and feedback. We introduce \textbf{M olGen}, a fragment-level, retrieval-augmented, two-stage framework for molecule generation under multi-property constraints. Stage I : Prototype generation: a multi-agent reasoner performs retrieval-anchored, fragment-level edits to produce a candidate near the feasible region. Stage II : RL-based fine-grained optimization: a fragment-level optimizer trained with Group Relative Policy Optimization (GRPO) applies one- or multi-hop refinements to explicitly minimize the property errors toward our target while regulating edit complexity and deviation from the prototype. A large, automatically curated dataset with reasoning chains of fragment edits and measured property deltas underpins both stages, enabling deterministic, reproducible supervision and controllable multi-hop reasoning. Unlike prior work, our framework better reasons about molecules by leveraging fragments and supports controllable refinement toward numeric targets. Experiments on generation under two sets of property constraints (QED, LogP, Molecular Weight and HOMO, LUMO) show consistent gains in validity and precise satisfaction of multi-property targets, outperforming strong LLMs and graph-based algorithms.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!