当前位置：首页 > 精选 >软件>文章详情

【每周AI报道】阿里千亿参数的大模型 Qwen1.5-110B；字节跳动推出图像和视频生成框架StoryDiffusion

2年前 (2024-05-04)| 分类：软件 |热度：23 ℃

暂无评论

一、重要AI信息

1、阿里巴巴发布了首个千亿参数的大模型 Qwen1.5-110B

阿里巴巴发布了Qwen1.5系列首个千亿参数的大模型 Qwen1.5-110B。此前它发布了 0.5B、1.8B、4B、7B、14B 和 72B 不同规模参数的版本。Qwen1.5-110B 模型在基础能力评估中与 Meta-Llama3-70B 相媲美。该模型支持 32K tokens 的上下文长度，同时它仍然是多语言的，支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

地址：https://qwenlm.github.io/zh/blog/qwen1.5-110b

2、Gradient推出Llama-3 8B Gradient Instruct 1048k

Gradient发布基于Llama-3 8B的微调模型Llama-3 8B Gradient Instruct 1048k，该模型将LLama-3 8B的上下文长度从8k扩展到超过1040K。它展示了通过适当调整RoPE theta，最先进的LLMs（大语言模型）可以在几乎不增加训练量的情况下学会处理长上下文。

地址：https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

3、Abacus.AI 推出Llama-3-Giraffe-70B

Abacus.AI推出基于Llama 3 70B打造的Llama-3-Giraffe-70B，该模型将 Llama 3 70B的上下文长度扩展到128k。

地址：https://huggingface.co/abacusai/Llama-3-Giraffe-70B

4、面壁智能发布开源大模型 Eurux-8x22B

面壁智能发布开源大模型 Eurux-8x22B，包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO，主打推理能力。Eurux-8x22B 模型激活参数 39B，支持 64k 上下文，是由 Mixtral-8x22B 模型对齐而来，在 UltraInteract 对齐数据集上训练而成。UltraInteract 是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集，包含了覆盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对，共有五十万条左右数据。

Eurux-8x22B-NCA：https://huggingface.co/openbmb/Eurux-8x22b-nca
Eurux-8x22B-KTO：https://huggingface.co/openbmb/Eurux-8x22b-kto

5、开源评估模型PROMETHEUS 2：专门用于评估其他语言模型的输出质量

KAIST AI、LG AI Research、卡内基梅隆大学、MIT、艾伦人工智能研究所和伊利诺伊大学芝加哥分校联合推出开源评估模型PROMETHEUS 2，它专门用于评估其他语言模型的输出质量。在开发这个模型的过程中，研究人员注意到现有的开源评估模型存在一些关键的不足，比如它们的评分与人类给出的评分差异较大，以及它们缺乏执行直接评估和成对排名这两种最常见评估形式的灵活性。此外，这些模型通常只能根据通用的标准（如有帮助性和无害性）进行评估，而不是基于自定义的评估标准。

地址：https://github.com/prometheus-eval/prometheus-eval

6、字节跳动推出新型蒸馏模型Hyper-SD

字节跳动推出了新的蒸馏模型Hyper-SD，它能够实现快速且高质量的文本生成图像。该模型在SD1.5和SDXL架构上进行单步推理，同时在美感、风格和结构上保持了高水准，没有明显损失。

地址：https://hyper-sd.github.io
文生图Demo：https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
画图Demo：https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble

【每周AI报道】阿里千亿参数的大模型 Qwen1.5-110B；字节跳动推出图像和视频生成框架StoryDiffusion

7、BigCode推出StarCoder2-15B-Instruct-v0.1

BigCode推出基于StarCoder-15B的微调模型StarCoder2-15B-Instruct-v0.1，这是首个完全通过自对齐方式训练的代码大语言模型，其训练过程采用了完全开放和透明的流程。BigCode利用StarCoder2-15B生成了数千个指令-响应对，然后利用这些对来微调StarCoder-15B模型，整个过程中无需任何人工标注或来自其他庞大且专有的大语言模型的提炼数据。

地址：https://huggingface.co/bigcode/starcoder2-15b-instruct-v0.1

8、亚马逊AWS推出面向企业和开发者的生成式AI助手Amazon Q

亚马逊AWS推出的面向企业和开发者的生成式AI助手——Amazon Q，旨在加速软件开发并利用公司内部数据。Amazon Q不仅能生成高度精确的代码，还能进行测试、调试，并具备多步骤规划与推理的能力，能够根据开发者的请求转换和执行新生成的代码。此外，Amazon Q通过连接企业数据仓库，能够逻辑地概括数据、分析趋势，并就数据进行对话，帮助员工更容易地获取跨业务数据的问题答案，这些数据包括公司政策、产品信息、业务成果、代码库、员工信息等多个领域。

Amazon Q包含以下组件：

Amazon Q Developer：一个生成式AI驱动的会话助手，帮助用户构建和运营AWS应用程序。
Amazon Q Business：一个AI助手，能够基于企业系统内的数据和信息生成内容，并安全高效地完成任务。
Amazon Q Apps：允许用户利用公司数据构建生成式AI驱动的应用程序，无需具备编程经验。

地址：https://aws.amazon.com/cn/q/business

【每周AI报道】阿里千亿参数的大模型 Qwen1.5-110B；字节跳动推出图像和视频生成框架StoryDiffusion

9、生数科技与清华大学联合推出AI视频大模型Vidu

生数科技与清华大学联合推出了AI视频大模型—Vidu。这款模型凭借其独特的U-ViT架构（Diffusion与Transformer融合），实现了长时长、高一致性和高动态性的视频生成能力，一键即可创作出长达16秒、1080P高清的视频内容。

地址：https://www.shengshu-ai.com

10、PyTorch推出ExecuTorch

PyTorch发布了ExecuTorch的alpha版本，这是一个专注于在包括可穿戴设备、嵌入式设备和微控制器在内的移动和边缘设备上部署大型语言模型的框架。

地址：https://github.com/pytorch/executorch

11、谷歌推出AI医疗模型Med-Gemini

谷歌推出AI医疗模型Med-Gemini，它们是专门为医学领域设计的多模态（能够处理文本、图像、视频等不同类型数据）大语言模型。Med-Gemini模型基于Gemini模型，通过特殊的训练和定制，能够在医学领域表现出强大的能力，包括理解复杂的医疗文本、处理多模态医疗数据，以及处理长文本的上下文信息。

地址：https://arxiv.org/abs/2404.18416

12、Nexa AI推出新型语言模型框架Octopus v4

Nexa AI推出新型语言模型框架Octopus v4，这个框架特别之处在于它使用了一种图结构（graph structure）来整合多个开源的语言模型，每个模型都针对特定的任务进行了优化。Octopus v4模型使用功能令牌（functional tokens）来智能地将用户查询导向最合适的垂直模型（vertical model），并重新格式化查询以实现最佳性能。

地址：https://graph.nexa4ai.com

13、字节跳动推出图像和视频生成框架StoryDiffusion

来自南开大学和字节跳动的研究人员推出一种新的图像和视频生成框架StoryDiffusion，这项技术的核心在于它能够生成一系列内容一致的图像和视频，这对于讲述一个故事或者展示一个连贯的场景来说非常重要。例如，你要制作一个关于“丛林冒险”的漫画系列，你可以用StoryDiffusion来生成一系列图像，其中的主角在不同的场景中保持一致的外观，比如同样的服装和面孔。然后，这些图像可以被转换成视频，形成一个连贯的动画故事。

项目主页：https://storydiffusion.github.io
GitHub：https://github.com/HVision-NKU/StoryDiffusion
Demo：https://huggingface.co/spaces/YupengZhou/StoryDiffusion

【每周AI报道】阿里千亿参数的大模型 Qwen1.5-110B；字节跳动推出图像和视频生成框架StoryDiffusion

二、重要更新

1、ChatGPT记忆功能正式向Plus 用户开放

现在，所有ChatGPT Plus高级用户都可以使用记忆功能。使用这个功能非常简单：只需开始一个新的聊天，并告诉ChatGPT你希望它记住的任何信息。记忆功能可以在设置中轻松开启或关闭，但目前尚未在欧洲和韩国提供。团队版、企业版以及未来的GPT版本都将包含这一功能。

【每周AI报道】阿里千亿参数的大模型 Qwen1.5-110B；字节跳动推出图像和视频生成框架StoryDiffusion

2、GitHub Copilot Workspace预览版上线

GitHub推出了GitHub Copilot Workspace，这是一个专为Copilot设计的原生开发环境。开发者可以在Copilot Workspace中使用自然语言进行创意发想、规划、编写、测试和执行代码。这种以任务为中心的全新体验，从开始到结束都利用了由Copilot驱动的不同智能体，同时确保开发者能够完全掌控开发过程的每个步骤。

地址：https://githubnext.com/projects/copilot-workspace

3、Claude 推出苹果 iOS 版 APP

Claude推出 iOS应用，目前仅有聊天和文件上传功能。值得一提的是，Anthropic今年3月推出的Claude 3系列模型已经引发了业界广泛关注。其中，旗舰模型Opus在本科和研究生水平的知识、数学和复杂任务理解方面均超越了OpenAI GPT-4和谷歌Gemini 1.0 Ultra，成为业界翘楚！

地址：https://apps.apple.com/us/app/claude/id6473753684

【每周AI报道】阿里千亿参数的大模型 Qwen1.5-110B；字节跳动推出图像和视频生成框架StoryDiffusion

4、Chrome浏览器推出新功能，快速与Gemini进行对话

Chrome浏览器推出新功能，可以直接在Chrome 地址栏与Gemini快速对话，直接在地址栏输入 @，选择Gemini输入提示词就会自动跳转到网页版 Gemini 并给出答案，不过实测后目前对于中文支持不太好，输入中文进行提问，会在网页版 Gemini形成乱码，要使用这个功能首先要升级你的Chrome浏览器到最新版！

5、英伟达聊天机器人ChatRTX 发布 0.3 版本更新

英伟达的 ChatRTX 应用在其网站上发布了备受期待的 0.3 版本更新，带来了一系列新功能，包括照片搜索能力、AI 驱动的语音识别以及与更多大语言模型（LLM）的兼容性。

地址：https://www.nvidia.com/en-us/ai-on-rtx/chatrtx

【每周AI报道】阿里千亿参数的大模型 Qwen1.5-110B；字节跳动推出图像和视频生成框架StoryDiffusion

三、AI产品推荐

1、Perplexica：开源的AI搜索引擎

Perplexica是一个基于开源人工智能的搜索工具或搜索引擎，它能够深入互联网寻找答案。它受到Perplexity AI的启发，不仅能搜索网络，更能理解您的问题。它采用先进的机器学习算法，如相似性搜索和嵌入技术，来优化搜索结果，并提供明确的答案，同时附上来源引用。Perplexica基于完全开源的SearxNG构建，确保您始终能获取最新信息，同时不会侵犯您的隐私。

地址：https://github.com/ItzCrazyKns/Perplexica

【每周AI报道】阿里千亿参数的大模型 Qwen1.5-110B；字节跳动推出图像和视频生成框架StoryDiffusion