본 보고서에서는 수백만 토큰의 컨텍스트(여러 개의 긴 문서, 수 시간 분량의 비디오 및 오디오 포함)에서 세밀한 정보를 회상하고 추론할 수 있는 차세대 고효율 멀티모달 모델인 Gemini 1.5 모델군을 소개합니다. 이 모델군에는 두 가지 새로운 모델이 포함됩니다. (1) 대다수의 기능과 벤치마크에서 2월 버전을 능가하는 업데이트된 Gemini 1.5 Pro, (2) 품질 저하를 최소화하면서 효율성을 위해 설계된 더 경량화된 변형인 Gemini 1.5 Flash입니다. Gemini 1.5 모델은 모든 모달리티의 긴 컨텍스트 검색 작업에서 거의 완벽한 회상(recall) 성능을 달성하고, 장문 문서 QA, 장시간 비디오 QA 및 긴 컨텍스트 ASR에서 최첨단 성능(SOTA)을 개선하며, 광범위한 벤치마크 세트에서 Gemini 1.0 Ultra의 최고 성능과 대등하거나 이를 능가합니다. Gemini 1.5의 긴 컨텍스트 능력의 한계를 연구한 결과, Claude 3.0(200k) 및 GPT-4 Turbo(128k)와 같은 기존 모델을 뛰어넘는 세대적 도약이라 할 수 있는 최소 1,000만 토큰까지의 다음 토큰 예측 성능의 지속적인 향상과 거의 완벽한 검색 성능(>99%)을 확인했습니다. 마지막으로, Gemini 1.5가 전문가와 협업하여 작업을 수행함으로써 10가지 다른 직무 범주에서 26~75%의 시간 절약을 달성하는 등의 실제 사용 사례와 프런티어 대규모 언어 모델(LLM)의 놀라운 새로운 기능을 강조합니다. 전 세계 화자가 200명 미만인 칼라망(Kalamang)어 문법 교재가 주어졌을 때, 모델은 동일한 콘텐츠로 학습한 사람과 유사한 수준으로 영어를 칼라망어로 번역하는 법을 학습합니다.
Original
Abstract
In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professionals on completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.