Google推出新一代模型Gemini 1.5,具有100万token的上下文理解能力

分类:大语言模型 | 热度:6 ℃

Google推出新一代模型Gemini 1.5,该模型在处理能力和跨模态理解上取得显著提升。该模型具有惊人的100万个token的上下文理解能力,成为目前市场上最强大的模型之一。

主要特点

  1. 超强的上下文处理:Gemini 1.5可以处理高达100万个token的连续信息,为大型基础模型设立了最长的上下文窗口记录。
  2. 跨模态理解与推理:该模型不仅可以处理文本,还能对代码、图像、音频和视频进行复杂的理解和推理。
  3. 高效能处理:无论是1小时的视频、11小时的音频,还是超过30,000行的代码或700,000字的文本,Gemini 1.5都能轻松应对。

性能与架构

  • 性能飞跃:在多个评估维度上,Gemini 1.5的性能均有所提升,特别是在处理长上下文信息时。
  • 高效架构:新采用的Mixture-of-Experts (MoE)架构,使模型在维持高质量的同时,减少了计算需求,提高了训练和服务效率。

工作原理

  • Mixture-of-Experts (MoE)技术:通过划分模型为多个小型的“专家”神经网络,并根据输入类型选择性地激活最相关的专家路径,MoE技术大大提高了模型的效率。

应用场景

Gemini 1.5特别适用于需要处理大量数据和复杂情境的应用,如深度文档分析、视频内容理解、代码审查和多模态数据整合等。

官方介绍:https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024

Google推出新一代模型Gemini 1.5,具有100万token的上下文理解能力

以下是全文翻译:

谷歌和Alphabet首席执行官Sundar Pichai的通知:

上周,我们发布了功能强大的Gemini 1.0 Ultra模型,并在Gemini Advanced的基础上取得了重要进展,使谷歌的产品更加实用。现在,开发人员和云客户可以通过AI Studio和Vertex AI中的Gemini API开始使用1.0 Ultra进行构建。

我们的团队继续以安全为核心,推动最新模型的前沿发展,并已取得显著进展。事实上,我们已经准备好推出下一代产品:Gemini 1.5。它在多个维度上展现了显著的改进,而1.5 Pro的质量与1.0 Ultra相当,同时使用的计算资源更少。

这一新产品还实现了长上下文理解的突破。我们已经成功地将模型可以处理的信息量增加到高达1百万个token,实现了迄今为止任何大规模基础模型中最长的上下文窗口。

更长的上下文窗口为我们展示了新的可能性。它们将启用全新的功能,并帮助开发人员构建更有用的模型和应用程序。我们很高兴为开发人员和企业客户提供这一实验性功能的有限预览。Demis将在下面分享更多关于功能、安全性和可用性的信息。

——Sundar

Gemini 1.5的介绍

由Google DeepMind首席执行官Demis Hassabis代表Gemini团队发布

这是人工智能领域的激动人心的时刻。该领域的最新进展有望在未来几年使数十亿人更加受益于人工智能。自推出Gemini 1.0以来,我们一直在不断测试、完善和提升其功能。

今天,我们宣布推出下一代模型:Gemini 1.5。

Gemini 1.5在性能方面实现了显著提升,这代表了我们方法上的一大步。这一进步建立在我们基础模型开发和基础设施几乎每个部分的研究和工程创新之上。其中包括采用新的Mixture-of-Experts(MoE)架构,使Gemini 1.5的训练和服务更加高效。

我们首次推出的Gemini 1.5模型是Gemini 1.5 Pro。这是一款中等规模的多模态模型,经过优化,可在各种任务中进行扩展,性能与我们迄今为止最大的模型1.0 Ultra相当。此外,它还引入了长上下文理解方面的突破性实验特性。

Gemini 1.5 Pro的标准上下文窗口为128,000个token。从今天起,一小部分开发人员和企业客户将能够通过AI Studio和Vertex AI的私人预览版,尝试使用高达1百万个token的上下文窗口。

随着我们逐步推出完整的1百万个token上下文窗口,我们将积极努力优化以提高延迟性能,减少计算需求并提升用户体验。我们期待人们尝试这一突破性功能,并将在下面分享有关未来可用性的更多详细信息。

我们下一代模型的这些持续进步将为人们、开发人员和企业创造新的可能性,让他们利用人工智能进行创造、发现和构建。

Google推出新一代模型Gemini 1.5,具有100万token的上下文理解能力

高效架构:MoE的引领者

Gemini 1.5的构建基于我们在Transformer和Mixture-of-Experts (MoE)架构方面的领先研究。与传统的将整个模型作为大型神经网络运行的Transformer不同,MoE模型将模型划分为更小的“专家”神经网络。这种架构使模型能够根据输入的类型选择性地激活最相关的专家路径,从而提高效率。

谷歌一直是MoE技术的早期采用者和先驱,通过一系列研究,如Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer和M4等,我们在深度学习领域深入应用了这项技术。

这些模型架构方面的创新使Gemini 1.5能够更快地学习复杂任务并保持高质量,同时提高训练和服务的效率。这些效率使我们的团队能够以前所未有的速度迭代、训练和交付更先进的Gemini版本。我们仍在努力进行进一步的优化,以释放更大的潜力。

更大的上下文,更实用的功能

在人工智能模型中,“上下文窗口”是指用于处理信息的标记(token)的数量。这些标记可以是单词、图像、视频、音频或代码的片段。模型的上下文窗口越大,它就能接收和处理更多的信息,从而使输出更加一致、相关和有用。

通过一系列机器学习创新,我们将Gemini 1.5 Pro的上下文窗口容量增加到远超Gemini 1.0的原始32,000个标记。现在,我们能够在生产环境中处理高达1百万个标记的上下文。

这意味着Gemini 1.5 Pro可以一次性处理大量信息,包括1小时的视频、11小时的音频、超过30,000行代码的代码库或超过700,000个单词的文本。在我们的研究中,我们还成功测试了高达1千万个标记的上下文窗口。

关于大量信息的复杂推理

Gemini 1.5 Pro能够无缝地分析、分类和总结给定提示中的大量内容。例如,当给出阿波罗11号登月任务的详细转录本时,它能够理解文档中的对话、事件和细节,并进行复杂的推理。

跨模态的更好理解和推理

Gemini 1.5 Pro不仅擅长处理文本信息,还能执行针对不同模态(如视频)的高度复杂的理解和推理任务。例如,当给出一段无声电影时,该模型能够准确地分析情节、事件和甚至电影中容易错过的微小细节。

使用更长的代码块进行相关问题解决

对于开发人员来说,Gemini 1.5 Pro能够在更长的代码块中执行更相关的问题解决任务。当给出一个包含大量代码的提示时,它能够更好地在不同代码片段之间进行推理,提出有用的修改建议,并解释代码不同部分的工作原理。

增强的性能:卓越与创新的结合

经过严格的综合面板测试,Gemini 1.5 Pro在87%的基准测试中表现优于1.0 Pro,这充分证明了其性能的显著提升。更令人瞩目的是,当与强大的1.0 Ultra模型相比时,1.5 Pro展现出了与之相当的性能水平。

值得一提的是,尽管1.5 Pro的上下文窗口大幅增加,但其性能并未受到影响。在“Needle In A Haystack”(NIAH)评估中,该模型在长达1百万个标记的数据块中,以惊人的99%的准确率找到了嵌入的文本。这一成就证明了其在处理大规模信息时的出色能力。

此外,Gemini 1.5 Pro还展示了令人印象深刻的“上下文学习”技能。在“Machine Translation from One Book”(MTOB)基准测试中,该模型仅通过阅读一本卡马拉语(一种全球使用者不到200人的语言)的语法手册,就学会了将英语翻译成卡马拉语的能力,其表现与经过大量数据训练的人类翻译者不相上下。这一突破性的成就再次证明了Gemini 1.5 Pro在跨语言学习方面的卓越性能。

为了全面评估1.5 Pro的新型长上下文功能,我们正在积极开发新的评估和基准测试。我们相信,这些测试将进一步证明1.5 Pro在处理大规模信息时的卓越性能。有关Gemini 1.5 Pro性能的更多详细信息,请参阅我们的技术报告

道德与安全:我们的坚定承诺

在我们推出任何新技术时,道德和安全始终是我们首要考虑的因素。根据我们的AI原则和健全的安全政策,我们确保Gemini 1.5 Pro经过了广泛的道德和安全测试。

自去年12月推出1.0 Ultra以来,我们的团队一直在不断完善该模型,以确保其适合更广泛的发布。在此过程中,我们对安全风险进行了深入的研究,并开发了红队技术来测试一系列潜在的危害。

在发布1.5 Pro之前,我们采取了与Gemini 1.0模型相同的负责任部署方法。我们在内容安全和代表性危害等领域进行了广泛的评估,并将继续扩大这些测试。此外,我们还在开发进一步的测试,以充分考虑1.5 Pro的新型长上下文功能。

开放与合作:与全球用户共享创新成果

我们致力于负责任地将每一代Gemini模型带给全球数十亿用户、开发人员和企业。从今天起,我们将通过AI Studio和Vertex AI向开发人员和企业客户提供1.5 Pro的有限预览版。

我们计划很快推出定价层级,从标准的128,000个上下文窗口开始,随着模型的改进,逐步扩展到1百万个标记。在测试期间,早期测试人员可以免费试用1百万个标记的上下文窗口,但请注意,这一实验性功能可能会带来较长的延迟时间。我们正在努力改进速度,以便尽快为用户提供更好的体验。

对测试1.5 Pro感兴趣的开发人员现在可以在AI Studio中注册,而企业客户可以联系他们的Vertex AI账户团队以获取更多信息。我们诚邀您了解更多关于Gemini的功能及其工作原理。我们相信,通过持续的创新和合作,我们将能够共同推动人工智能技术的发展,为人类带来更美好的未来。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论