Mozi: 약물 개발 LLM 에이전트를 위한 통제된 자율성
Mozi: Governed Autonomy for Drug Discovery LLM Agents
도구 기반 대규모 언어 모델(LLM) 에이전트는 과학적 추론과 계산을 통합할 수 있는 잠재력을 가지고 있지만, 특히 약물 개발과 같이 중요한 분야에서의 활용은 두 가지 중요한 제약으로 인해 어려움을 겪고 있습니다. 바로 무제한적인 도구 사용 관리 및 장기적인 신뢰성 부족입니다. 복잡한 의약품 개발 과정에서, 자율 에이전트는 종종 재현 불가능한 경로로 이끌리며, 초기 단계의 환각 현상이 누적되어 후속 단계에서 심각한 오류를 야기합니다. 이러한 문제를 해결하기 위해, 우리는 생성형 AI의 유연성과 생물정보학 계산의 엄격성을 결합한 이중 계층 구조인 Mozi를 제안합니다. A 계층(제어 계층)은 역할 기반 도구 격리, 제한된 실행 공간, 그리고 반사적 재계획을 통해 통제된 감독-작업자 계층 구조를 구축합니다. B 계층(워크플로우 계층)은 표적 발굴부터 선도 물질 최적화에 이르기까지, 표준적인 약물 개발 단계를 상태 기반의 구성 가능한 기술 그래프로 구현합니다. 이 계층은 엄격한 데이터 계약 및 전략적인 인간 개입 지점(HITL)을 통합하여 불확실성이 높은 의사 결정 지점에서 과학적 타당성을 보장합니다. "안전한 작업에는 자유로운 추론을, 장기적인 프로세스에는 체계적인 실행을"이라는 설계 원칙에 따라, Mozi는 내장된 강력한 메커니즘과 추적 수준의 감사 기능을 제공하여 오류 축적을 완전히 방지합니다. 우리는 Mozi를 생물 의학 에이전트를 위한 벤치마크인 PharmaBench에서 평가하여 기존 모델보다 뛰어난 조정 정확도를 보여주었습니다. 또한, 실제 치료 사례 연구를 통해 Mozi가 광범위한 화학 물질 공간을 탐색하고, 엄격한 독성 필터를 적용하며, 경쟁력 있는 시뮬레이션 후보 물질을 생성할 수 있음을 입증했습니다. 이를 통해 LLM을 불안정한 대화형 도구에서 신뢰할 수 있고 통제된 협력 연구원으로 변환할 수 있습니다.
Tool-augmented large language model (LLM) agents promise to unify scientific reasoning with computation, yet their deployment in high-stakes domains like drug discovery is bottlenecked by two critical barriers: unconstrained tool-use governance and poor long-horizon reliability. In dependency-heavy pharmaceutical pipelines, autonomous agents often drift into irreproducible trajectories, where early-stage hallucinations multiplicatively compound into downstream failures. To overcome this, we present Mozi, a dual-layer architecture that bridges the flexibility of generative AI with the deterministic rigor of computational biology. Layer A (Control Plane) establishes a governed supervisor--worker hierarchy that enforces role-based tool isolation, limits execution to constrained action spaces, and drives reflection-based replanning. Layer B (Workflow Plane) operationalizes canonical drug discovery stages -- from Target Identification to Lead Optimization -- as stateful, composable skill graphs. This layer integrates strict data contracts and strategic human-in-the-loop (HITL) checkpoints to safeguard scientific validity at high-uncertainty decision boundaries. Operating on the design principle of ``free-form reasoning for safe tasks, structured execution for long-horizon pipelines,'' Mozi provides built-in robustness mechanisms and trace-level audibility to completely mitigate error accumulation. We evaluate Mozi on PharmaBench, a curated benchmark for biomedical agents, demonstrating superior orchestration accuracy over existing baselines. Furthermore, through end-to-end therapeutic case studies, we demonstrate Mozi's ability to navigate massive chemical spaces, enforce stringent toxicity filters, and generate highly competitive in silico candidates, effectively transforming the LLM from a fragile conversationalist into a reliable, governed co-scientist.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.