베이지안 적대적 다중 에이전트 프레임워크 기반의 AI 과학용 로우코드 플랫폼
AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework
대규모 언어 모델(LLM)은 과학 코드 생성 자동화에 잠재력을 보이지만, 신뢰성, 다중 에이전트 워크플로우에서의 오류 전파, 그리고 명확하게 정의되지 않은 성공 지표가 있는 분야에서의 평가라는 과제를 안고 있습니다. 본 논문에서는 AI 과학(AI4S) 작업에 특화된 베이지안 적대적 다중 에이전트 프레임워크를 로우코드 플랫폼(LCP) 형태로 제시합니다. 세 개의 LLM 기반 에이전트가 베이지안 프레임워크 하에서 조정됩니다. 여기에는 사용자 입력을 실행 가능한 계획과 적응형 테스트 케이스로 구성하는 작업 관리자, 후보 솔루션을 생성하는 코드 생성기, 그리고 포괄적인 피드백을 제공하는 평가자가 포함됩니다. 이 프레임워크는 적대적 루프를 사용하며, 작업 관리자는 반복적으로 테스트 케이스를 개선하여 코드 생성기를 도전하고, 코드 품질 지표(기능적 정확성, 구조적 일관성, 정적 분석)를 통합하여 베이지안 원칙에 따라 프롬프트 분포를 동적으로 업데이트합니다. 테스트와 코드의 공동 최적화는 LLM의 신뢰성에 대한 의존성을 줄이고, 과학 작업에 내재된 평가 불확실성을 해결합니다. 또한, LCP는 비전문가 사용자의 프롬프트를 도메인별 요구 사항으로 변환하여 코딩 경험이 없는 사용자가 수동으로 프롬프트를 설계할 필요성을 없애, 인간-AI 협업을 간소화합니다. 벤치마크 평가 결과, LCP는 견고한 코드를 생성하면서 오류 전파를 최소화하는 데 효과적임을 입증했습니다. 제안된 플랫폼은 또한 지구 과학 분야의 융합 학문 과제에 적용되어 우수한 신뢰성을 보여주며, 경쟁 모델보다 성능이 뛰어난 것으로 나타났습니다.
Large Language Models (LLMs) demonstrate potentials for automating scientific code generation but face challenges in reliability, error propagation in multi-agent workflows, and evaluation in domains with ill-defined success metrics. We present a Bayesian adversarial multi-agent framework specifically designed for AI for Science (AI4S) tasks in the form of a Low-code Platform (LCP). Three LLM-based agents are coordinated under the Bayesian framework: a Task Manager that structures user inputs into actionable plans and adaptive test cases, a Code Generator that produces candidate solutions, and an Evaluator providing comprehensive feedback. The framework employs an adversarial loop where the Task Manager iteratively refines test cases to challenge the Code Generator, while prompt distributions are dynamically updated using Bayesian principles by integrating code quality metrics: functional correctness, structural alignment, and static analysis. This co-optimization of tests and code reduces dependence on LLM reliability and addresses evaluation uncertainty inherent to scientific tasks. LCP also streamlines human-AI collaboration by translating non-expert prompts into domain-specific requirements, bypassing the need for manual prompt engineering by practitioners without coding backgrounds. Benchmark evaluations demonstrate LCP's effectiveness in generating robust code while minimizing error propagation. The proposed platform is also tested on an Earth Science cross-disciplinary task and demonstrates strong reliability, outperforming competing models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.