학제 간 과학 연구를 위한 통합 멀티모달 이해 및 생성 모델
A unified multimodal understanding and generation model for cross-disciplinary scientific research
오늘날 과학적 발견은 여러 학문 분야에 걸친 이질적이고 고차원적인 데이터의 통합에 점점 더 의존하고 있습니다. AI 모델들이 다양한 과학 영역에서 괄목할 만한 성과를 거두었지만, 대개 특정 도메인에 국한되거나 멀티모달 과학 데이터, 특히 고차원 데이터를 동시에 이해하고 생성하는 역량이 부족한 실정입니다. 그러나 시급한 글로벌 난제와 과학적 문제들은 본질적으로 다학제적이며 여러 분야에 걸친 유기적인 진보를 요구합니다. 본 논문에서는 단일 아키텍처 내에서 다양한 과학 도메인에 걸친 이해와 고충실도 생성을 수행하는 네이티브 통합 멀티모달 모델인 FuXi-Uni를 소개합니다. 구체적으로 FuXi-Uni는 다학제적 과학 토큰을 자연어 토큰과 정렬하고, 사이언스 디코더(science decoder)를 통해 과학 토큰을 재구성함으로써 자연어 대화와 과학적 수치 예측을 모두 지원합니다. 실증적으로 우리는 지구과학 및 생물의학 분야에서 FuXi-Uni를 검증했습니다. 지구 시스템 모델링에서 이 모델은 언어 지시만으로 전 지구 기상 예측, 열대 저기압(TC) 예측 수정 및 공간 다운스케일링을 수행합니다. FuXi-Uni는 최첨단(SOTA) 물리적 예측 시스템을 능가하는 0.25° 해상도의 10일 전 지구 기상 예측을 생성합니다. 또한 SOTA 물리 모델 대비 열대 저기압의 경로 및 강도 예측에서 우수한 성능을 보이며, 표준 보간 베이스라인을 뛰어넘는 고해상도 지역 기상장을 생성합니다. 생물의학 분야에서는 여러 생물의학 시각적 질의응답 벤치마크에서 선도적인 멀티모달 대형 언어 모델들을 능가하는 성과를 보였습니다. 강력한 도메인별 성능을 유지하면서 네이티브 공유 잠재 공간 내에 이질적인 과학적 모달리티를 통합함으로써, FuXi-Uni는 보다 범용적인 멀티모달 과학 모델로 나아가는 발판을 마련했습니다.
Scientific discovery increasingly relies on integrating heterogeneous, high-dimensional data across disciplines nowadays. While AI models have achieved notable success across various scientific domains, they typically remain domain-specific or lack the capability of simultaneously understanding and generating multimodal scientific data, particularly for high-dimensional data. Yet, many pressing global challenges and scientific problems are inherently cross-disciplinary and require coordinated progress across multiple fields. Here, we present FuXi-Uni, a native unified multimodal model for scientific understanding and high-fidelity generation across scientific domains within a single architecture. Specifically, FuXi-Uni aligns cross-disciplinary scientific tokens within natural language tokens and employs science decoder to reconstruct scientific tokens, thereby supporting both natural language conversation and scientific numerical prediction. Empirically, we validate FuXi-Uni in Earth science and Biomedicine. In Earth system modeling, the model supports global weather forecasting, tropical cyclone (TC) forecast editing, and spatial downscaling driven by only language instructions. FuXi-Uni generates 10-day global forecasts at 0.25° resolution that outperform the SOTA physical forecasting system. It shows superior performance for both TC track and intensity prediction relative to the SOTA physical model, and generates high-resolution regional weather fields that surpass standard interpolation baselines. Regarding biomedicine, FuXi-Uni outperforms leading multimodal large language models on multiple biomedical visual question answering benchmarks. By unifying heterogeneous scientific modalities within a native shared latent space while maintaining strong domain-specific performance, FuXi-Uni provides a step forward more general-purpose, multimodal scientific models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.