AgentCAT: 화학공학 문헌에서 촉매 반응 데이터를 추출하고 분석하는 LLM 에이전트
AgentCAT: An LLM Agent for Extracting and Analyzing Catalytic Reaction Data from Chemical Engineering Literature
본 논문에서는 화학공학 논문에서 촉매 반응 데이터를 추출하고 분석하며, 추출된 데이터에 대한 자연어 기반의 인터랙티브 분석을 지원하는 대규모 언어 모델(LLM) 에이전트인 AgentCAT을 소개합니다. AgentCAT은 화학공학 분야의 오랜 데이터 부족 문제를 해결하는 대안으로, 자연어 기반의 인터랙티브 데이터 분석 기능은 연구 커뮤니티에 유용합니다. 또한, AgentCAT은 촉매 반응 데이터 추출 작업을 인공지능 친화적인 방식으로 형식화하고 분석하여 제시합니다. 이러한 형식화는 인공지능 연구 커뮤니티가 이 문제를 이해하고, 이를 해결하기 위한 관심을 유도하는 데 도움이 될 것입니다. 기술적으로, 복잡한 촉매 반응은 기본 반응 단계, 분자 행동, 측정 증거 등에 대한 복잡한 의존 구조를 갖습니다. 이러한 의존 구조는 데이터 추출의 정확성과 완전성을 보장하고, 분석을 위한 데이터 표현을 어렵게 만듭니다. AgentCAT은 이러한 과제를 해결하며, 다음과 같은 네 가지 기술적 기여를 합니다: (1) 점진적인 스키마 진화를 가능하게 하는 스키마 기반 추출 파이프라인을 통해 화학공학 논문에서 안정적인 데이터 추출을 가능하게 합니다; (2) 촉매/활성 부위, 합성 파생 특성, 메커니즘 주장과 증거, 그리고 거시적 결과를 연결하는 의존성 기반 반응 네트워크 지식 그래프를 구축하여 공정 연결성과 추적성을 유지합니다; (3) 구축된 그래프에 대한 자연어 기반 탐색 및 시각화를 지원하는 일반적인 쿼리 모듈을 제공하여 논문 간 분석을 가능하게 합니다; (4) 약 800개의 동료 심사형 화학공학 논문을 대상으로 평가를 수행하여 AgentCAT의 효과를 입증합니다.
This paper presents a large language model (LLM) agent named AgentCAT, which extracts and analyzes catalytic reaction data from chemical engineering papers, %and supports natural language based interactive analysis of the extracted data. AgentCAT serves as an alternative to overcome the long-standing data bottleneck in chemical engineering field, and its natural language based interactive data analysis functionality is friendly to the community. AgentCAT also presents a formal abstraction and challenge analysis of the catalytic reaction data extraction task in an artificial intelligence-friendly manner. This abstraction would help the artificial intelligence community understand this problem and in turn would attract more attention to address it. Technically, the complex catalytic process leads to complicated dependency structure in catalytic reaction data with respect to elementary reaction steps, molecular behaviors, measurement evidence, etc. This dependency structure makes it challenging to guarantee the correctness and completeness of data extraction, as well as representing them for analysis. AgentCAT addresses this challenge and it makes four folds of technical contributions: (1) a schema-governed extraction pipeline with progressive schema evolution, enabling robust data extraction from chemical engineering papers; (2) a dependency-aware reaction-network knowledge graph that links catalysts/active sites, synthesis-derived descriptors, mechanistic claims with evidence, and macroscopic outcomes, preserving process coupling and traceability; (3) a general querying module that supports natural-language exploration and visualization over the constructed graph for cross-paper analysis; (4) an evaluation on $\sim$800 peer-reviewed chemical engineering publications demonstrating the effectiveness of AgentCAT.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.