谷歌在180多个国家/地区推出Gemini 1.5 Pro API:具有原生音频理解、系统指令、JSON 模式等新功能

分类:大语言模型 | 热度:10 ℃

谷歌在今天宣布将在180多个国家/地区推出Gemini 1.5 Pro 的API,首次提供原生音频(语音)理解能力以及全新的File API,使得文件处理更加便捷。此外,还推出了系统指令和JSON模式等新功能,赋予开发者对模型输出的更多控制权。最后,谷歌发布了性能卓越的下一代文本嵌入模型,超越了同类产品的表现。

以下是官方全文翻译:(原文地址

谷歌在180多个国家/地区推出Gemini 1.5 Pro API:具有原生音频理解、系统指令、JSON 模式等新功能

Google AI Studio获取API密钥,并从Gemini API Cookbook开始操作。

不到两个月前,我们向开发者推出了Gemini 1.5 Pro模型,供其试用。我们惊讶于社区利用我们开创性的100万个上下文窗口功能所取得的调试、创作和学习成果。

今天,我们首次通过Gemini API公共预览版在180多个国家/地区推出Gemini 1.5 Pro,并首次提供原生音频(语音)理解能力以及全新的File API,使得文件处理更加便捷。此外,我们还推出了系统指令和JSON模式等新功能,赋予开发者对模型输出的更多控制权。最后,我们发布了性能卓越的下一代文本嵌入模型,超越了同类产品的表现。

前往Google AI Studio创建或访问您的API密钥,开始构建您的应用吧!

解锁音频和视频模态的新用例

我们扩展了Gemini 1.5 Pro的输入模态,使其在Gemini API和Google AI Studio中都具备音频(语音)理解能力。此外,Gemini 1.5 Pro现在还能够对Google AI Studio中上传的视频的图像(帧)和音频(语音)进行推理。我们期待不久后将为此功能提供API支持。

谷歌在180多个国家/地区推出Gemini 1.5 Pro API:具有原生音频理解、系统指令、JSON 模式等新功能

您可以上传讲座的录音,比如这场来自Jeff Dean的包含117,000+个标记的讲座,Gemini 1.5 Pro能够将其转化为带有答案解析的测验。

Gemini API 改进

今天,我们将满足众多开发者的核心需求,推出以下改进:

谷歌在180多个国家/地区推出Gemini 1.5 Pro API:具有原生音频理解、系统指令、JSON 模式等新功能

  1. 系统指令:现在,您可以在Google AI Studio和Gemini API中使用系统指令来引导模型的响应。通过定义角色、格式、目标和规则,您可以针对特定用例调整模型的行为。

  2. JSON模式:现在您可以指示模型仅输出JSON对象。这一模式让您能够从文本或图像中轻松提取结构化数据。您可以使用cURL开始操作,Python SDK的支持也将很快推出。

  3. 函数调用优化:我们增加了选择模式的功能,帮助您限制模型的输出,从而提升其可靠性。您可以选择输出文本、函数调用或仅输出函数本身。

全新高性能嵌入模型

从今天开始,开发者将通过Gemini API访问我们新一代的文本嵌入模型。新模型text-embedding-004(在Vertex AI中为text-embedding-preview-0409)在MTEB基准测试中表现出卓越的检索性能,超越了具有相似维度的现有模型。

谷歌在180多个国家/地区推出Gemini 1.5 Pro API:具有原生音频理解、系统指令、JSON 模式等新功能

这只是未来几周内Gemini API和Google AI Studio即将推出的一系列改进中的首批。我们将继续努力,使Google AI Studio和Gemini API成为使用Gemini构建应用的最佳平台。今天就在Google AI Studio中开始使用Gemini 1.5 Pro,探索我们新推出的Gemini API Cookbook中的代码示例和快速入门,并加入我们的Discord社区频道。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论