Fanar 2.0: 아랍어 기반 생성형 AI 플랫폼
Fanar 2.0: Arabic Generative AI Stack
본 논문에서는 카타르의 아랍어 중심 생성형 AI 플랫폼인 Fanar 2.0의 두 번째 버전을 소개합니다. Fanar 2.0은 주권 확보를 최우선 설계 원칙으로 삼아, 데이터 파이프라인부터 배포 인프라까지 모든 구성 요소가 QCRI(Qatar Computing Research Institute) 및 Hamad Bin Khalifa University에서 설계 및 운영되었습니다. Fanar 2.0은 제한된 자원 속에서 뛰어난 성과를 달성한 사례입니다. 4억 명의 사용자를 보유하고 있음에도 불구하고 아랍어는 웹 데이터의 약 0.5%에 불과했습니다. Fanar 2.0은 데이터 품질 중시, 타겟 지속적 사전 학습, 모델 병합 전략을 채택하여 이러한 제약 조건 내에서 상당한 성능 향상을 이루었습니다. 핵심 모델인 Fanar-27B는 1200억 개의 고품질 토큰으로 구성된 세 가지 데이터 세트를 기반으로 Gemma-3-27B 모델을 지속적으로 사전 학습했습니다. Fanar 1.0에 비해 8배 적은 사전 학습 토큰을 사용했음에도 불구하고, 아랍어 지식(+9.1점), 언어 이해(+7.3점), 방언 이해(+3.5점), 영어 능력(+7.6점) 등 다양한 벤치마크에서 상당한 개선을 보였습니다. 핵심 LLM 외에도 Fanar 2.0은 다양한 새로운 기능을 제공합니다. FanarGuard는 아랍어의 안전 및 문화적 적합성을 위한 최첨단 4B 양방향 검열 필터입니다. Aura 음성 모델은 장시간 오디오 처리를 위한 ASR 모델을 추가했습니다. Oryx 비전 모델은 아랍어 인식을 기반으로 한 이미지 및 비디오 이해 기능을 제공하며, 문화적으로 적절한 이미지 생성 기능도 포함합니다. 또한, 에이전트 기반 툴 호출 프레임워크를 통해 다단계 워크플로우를 지원합니다. Fanar-Sadiq은 이슬람 콘텐츠를 위한 멀티 에이전트 아키텍처를 활용하고, Fanar-Diwan은 고전 아랍어 시 생성 기능을 제공합니다. Fanar-Shaheen은 LLM 기반의 양방향 번역 기능을 제공하며, 재설계된 멀티 레이어 오케스트레이터는 모든 구성 요소를 의도 기반 라우팅 및 심층 방어 안전 검증을 통해 통합 관리합니다. 종합적으로, Fanar 2.0은 주권 확보 및 제한된 자원을 활용한 AI 개발이 훨씬 더 큰 규모로 구축된 시스템과 경쟁할 수 있는 성능을 제공할 수 있음을 보여줍니다.
We present Fanar 2.0, the second generation of Qatar's Arabic-centric Generative AI platform. Sovereignty is a first-class design principle: every component, from data pipelines to deployment infrastructure, was designed and operated entirely at QCRI, Hamad Bin Khalifa University. Fanar 2.0 is a story of resource-constrained excellence: the effort ran on 256 NVIDIA H100 GPUs, with Arabic having only ~0.5% of web data despite 400 million native speakers. Fanar 2.0 adopts a disciplined strategy of data quality over quantity, targeted continual pre-training, and model merging to achieve substantial gains within these constraints. At the core is Fanar-27B, continually pre-trained from a Gemma-3-27B backbone on a curated corpus of 120 billion high-quality tokens across three data recipes. Despite using 8x fewer pre-training tokens than Fanar 1.0, it delivers substantial benchmark improvements: Arabic knowledge (+9.1 pts), language (+7.3 pts), dialects (+3.5 pts), and English capability (+7.6 pts). Beyond the core LLM, Fanar 2.0 introduces a rich stack of new capabilities. FanarGuard is a state-of-the-art 4B bilingual moderation filter for Arabic safety and cultural alignment. The speech family Aura gains a long-form ASR model for hours-long audio. Oryx vision family adds Arabic-aware image and video understanding alongside culturally grounded image generation. An agentic tool-calling framework enables multi-step workflows. Fanar-Sadiq utilizes a multi-agent architecture for Islamic content. Fanar-Diwan provides classical Arabic poetry generation. FanarShaheen delivers LLM-powered bilingual translation. A redesigned multi-layer orchestrator coordinates all components through intent-aware routing and defense-in-depth safety validation. Taken together, Fanar 2.0 demonstrates that sovereign, resource-constrained AI development can produce systems competitive with those built at far greater scale.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.