Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

分类:大语言模型 | 热度:4 ℃

Databricks在今天正式发布了全新的开源模型DBRX,这款模型凭借其卓越的性能和前沿的架构设计,有望成为当下最强大的开源模型之一。

模型架构:

DBRX采用了132B参数的MoE模型设计,其中包含16个专家。每个Token能够激活4个专家,这意味着在实际运行中,模型有36B的活跃参数。与之相比,Mixtral仅有13B的活跃参数,少了近三倍。这种设计使得DBRX在处理复杂任务时,能够更高效地利用计算资源,提高模型的性能表现。

性能表现:

DBRX在多个方面展现出了卓越的性能。在语言理解、编程、数学和逻辑等方面,它轻松击败了众多开源模型,如LLaMA2-70B、Mixtral和Grok-1。更令人瞩目的是,DBRX在大多数基准测试中,甚至超过了GPT-3.5,这足以证明其在人工智能领域的领先地位。

技术支撑:

DBRX是基于MegaBlocks研究和开源项目构建的专家混合模型(MoE)。这种设计使得DBRX在每秒处理的标记数量方面非常快速,能够轻松应对大规模数据处理和实时响应的需求。

数据训练:

为了确保DBRX的性能达到最佳状态,Databricks团队使用了庞大的数据集进行预训练。模型以12万亿Token的文本和代码为基础进行训练,支持的最大上下文长度达到了32k Tokens。这种大规模的预训练使得DBRX能够更好地理解自然语言,提高在各种任务中的表现。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

以下是官方介绍全文翻译(原文):

今天,我们很高兴地推出DBRX,这是一款由Databricks开发的开源、通用大型语言模型(LLM)。在一系列标准基准测试中,DBRX为现有的开源LLM树立了新的标杆。此外,它还为开源社区和构建自己LLM的企业提供了之前仅限于封闭模型API的先进功能。根据我们的测量,DBRX的性能超过了GPT-3.5,并且与Gemini 1.0 Pro相媲美。作为一款尤其出色的代码模型,DBRX在编程方面的表现超越了CodeLLaMA-70B等专用模型,同时它作为通用LLM的能力也同样强大。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

DBRX之所以能达到如此高质量,得益于其训练和推理性能的显著提升。这款模型采用了精细化的混合专家(MoE)架构,使其在开放模型中的效率达到了新的高度。具体而言,DBRX的推理速度比LLaMA2-70B快出两倍,同时在总参数数量和活跃参数数量上,DBRX仅为Grok-1的约40%。当托管在Mosaic AI Model Serving上时,DBRX可以实现高达150个令牌/秒/用户的文本生成速度。此外,对于我们的客户而言,训练MoEs相比训练相同最终模型质量的密集模型,浮点运算效率也提高了近两倍。从端到端的角度来看,我们为DBRX制定的整体方案——包括预训练数据、模型架构和优化策略——能够在使用近4倍更少的计算资源的情况下,达到我们上一代MPT模型的质量。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

图1:DBRX在语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)方面均超越了现有的开源模型

DBRX基础模型(DBRX Base)和微调模型(DBRX Instruct)已在Hugging Face平台以开源许可的形式提供。自今日起,Databricks客户可以通过API使用DBRX,并可以利用我们构建DBRX时所用的相同工具和科学方法,从零开始预训练自己的DBRX类模型,或在我们某个模型的基础上继续训练。DBRX已融入我们的GenAI驱动产品中,尤其在SQL等应用中,其早期版本性能已超越GPT-3.5 Turbo,并向GPT-4 Turbo发起挑战。此外,DBRX在RAG任务上的表现也优于其他开源模型和GPT-3.5 Turbo。

训练混合专家模型是一项极具挑战性的任务。为了构建一个足够稳健、能够高效重复训练DBRX类模型的管道,我们克服了众多科学和性能方面的难题。如今,我们已经成功做到了这一点,并开发出一套独一无二的训练堆栈,任何企业都可以利用它从零开始训练世界级的MoE基础模型。我们期待与我们的客户分享这一技术成果,并与社区分享我们的宝贵经验。

  • DBRX Base地址:https://huggingface.co/databricks/dbrx-base
  • DBRX Instruct地址:https://huggingface.co/databricks/dbrx-instruct
  • 官方仓库:https://huggingface.co/spaces/databricks/dbrx-instruct
  • GitHub:https://www.github.com/databricks/dbrx

DBRX是什么?

DBRX是一个基于Transformer的仅解码器大语言模型(LLM),它通过预测下一个 Token的方式进行训练。该模型采用精细化的混合专家(MoE)架构,拥有总计1320亿个参数,其中在任何输入上激活的参数有360亿个。DBRX在12万亿个文本和代码数据令牌上进行了预训练。与其他公开的MoE模型(如Mixtral和Grok-1)相比,DBRX的精细化程度更高,意味着它使用了更多的小型专家。具体来说,DBRX拥有16个专家并选择其中4个进行工作,而Mixtral和Grok-1则分别有8个专家并选择2个。这种设计提供了65倍更多的专家组合可能性,我们发现这有助于提升模型的质量。DBRX还采用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)等技术。此外,它使用了GPT-4的分词器,该分词器在tiktoken仓库中提供。这些选择是基于我们进行的详尽评估和扩展实验得出的。

DBRX在精心挑选的12万亿个Token上进行了预训练,并采用了最大上下文长度为32k令牌的设置。我们估计,这些数据在质量上至少比我们用于预训练MPT系列模型的数据高出两倍。这个新的数据集是利用Databricks全套工具开发的,包括Apache Spark™和Databricks笔记本用于数据处理、Unity Catalog用于数据管理和治理,以及MLflow用于实验跟踪。在预训练过程中,我们采用了课程学习法,通过灵活调整训练过程中的数据混合方式,我们发现了显著提升模型质量的方法。

基准测试与领先开源模型的质量对比

表1详细展示了DBRX Instruct与主流且已成熟的开源模型在质量方面的对比。DBRX Instruct在综合基准测试、编程与数学基准测试以及MMLU中均展现出卓越的性能,超越了其他模型。在标准基准测试中,它的表现也超过了所有聊天或指令微调模型。

在综合基准测试方面,我们对DBRX Instruct及其同类模型进行了全面评估,涵盖了Hugging Face开源大模型排行榜以及Databricks模型挑战赛。Hugging Face开源大模型排行榜结合了ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande和GSM8k等多个子测试的平均分。而Databricks模型挑战赛则包含超过30项任务,涵盖了世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程等多个领域。在这些综合测试中,DBRX Instruct均取得了最高得分,特别是在Hugging Face开源LLM排行榜上得分74.5%,高于排名第二的Mixtral Instruct模型的72.7%;在Databricks模型挑战赛中也以66.8%的得分超过了其他模型。

在编程与数学领域,DBRX Instruct展现出了强大的实力。在HumanEval和GSM8k这两个重要的基准测试中,DBRX Instruct的得分均超过了其他我们评估的开源模型。在HumanEval上,DBRX Instruct的得分高达70.1%,远高于Grok-1的63.2%、Mixtral Instruct的54.8%以及表现最佳的LLaMA2-70B变体的32.2%。同样,在GSM8k上,DBRX Instruct也以66.9%的得分领先于其他模型。值得一提的是,尽管Grok-1在参数数量上是DBRX的2.4倍,但DBRX在这些基准测试中的表现仍然优于Grok-1。此外,在HumanEval上,DBRX Instruct的表现甚至超过了专为编程设计的CodeLLaMA-70B Instruct模型,尽管DBRX Instruct本身是一款通用型模型。

在MMLU测试中,DBRX Instruct同样展现出了卓越的性能。它的得分高达73.7%,高于我们考虑的所有其他模型。这一成绩进一步证明了DBRX Instruct在多个领域的强大实力。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

表1:DBRX Instruct与领先开源模型的质量对比。加粗和下划线表示最高分数。

基准测试与领先闭源模型的质量对比

表2详细展示了DBRX Instruct与领先闭源模型在质量方面的对比。根据各模型创建者所公布的得分数据,DBRX Instruct在性能上超越了GPT-3.5(如GPT-4论文所述),并且与Gemini 1.0 Pro和Mistral Medium等模型展现出强大的竞争力。

在我们考察的几乎所有基准测试中,DBRX Instruct的性能均超越或至少与GPT-3.5持平。具体来说,在衡量通用知识的MMLU测试中,DBRX Instruct的得分高于GPT-3.5(73.7% vs. 70.0%)。而在评估常识推理能力的HellaSwag(89.0% vs. 85.5%)和WinoGrande(81.8% vs. 81.6%)测试中,DBRX Instruct同样展现出了更高的得分。

尤其在编程和数学推理方面,DBRX Instruct的表现更是亮眼。在HumanEval测试中,其得分远超GPT-3.5(70.1% vs. 48.1%),而在GSM8k测试中,DBRX Instruct同样以72.8%的得分领先于GPT-3.5的57.1%。

与Gemini 1.0 Pro相比,DBRX Instruct在Inflection Corrected MTBench、MMLU、HellaSwag和HumanEval等测试中的得分更高。不过,Gemini 1.0 Pro在GSM8k测试中则表现出了更强的实力。而与Mistral Medium相比,两者在HellaSwag测试中的得分相近。但在Winogrande和MMLU测试中,Mistral Medium表现更佳;而在HumanEval、GSM8k和Inflection Corrected MTBench测试中,DBRX Instruct则展现出了更强的实力。

综上所述,DBRX Instruct在多个基准测试中均展现出卓越的性能,与领先的闭源模型相比也毫不逊色,甚至在部分测试中表现更为出色。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

表2:DBRX Instruct与领先闭源模型的质量对比。除了我们自己通过模型端点测量的Inflection Corrected MTBench数据外,其他数据均来源于这些模型创建者在其各自白皮书中的报告。

长文本任务与RAG中的质量对比

DBRX Instruct在训练时采用了高达32K标记的上下文窗口。表3将其性能与Mixtral Instruct以及GPT-3.5 Turbo和GPT-4 Turbo API的最新版本在一系列长文本基准测试上的表现进行了对比。这些基准测试包括“Lost in the Middle”论文中的KV-Pairs和HotpotQAXL(HotPotQA的改进版,适用于更长的序列长度)。通常,GPT-4 Turbo在这些任务中表现最佳。然而,除特殊情况外,DBRX Instruct在所有序列长度的所有部分上的表现都优于GPT-3.5 Turbo。总体而言,DBRX Instruct和Mixtral Instruct的性能表现相近。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

表3:模型在KV-Pairs和HotpotQAXL基准测试上的平均性能表现。加粗为最高分,除GPT-4 Turbo外的最高分以下划线表示。GPT-3.5 Turbo支持的最大上下文长度为16K,因此我们在32K时无法对其进行评估。*GPT-3.5 Turbo在序列开始、中间和结束时的平均分仅包括长度至多16K的上下文。

利用模型上下文的一种流行方法是检索增强生成(RAG)。在RAG中,我们从数据库中检索与提示相关的内容,并将其与提示一起呈现给模型,为模型提供更多信息。表4展示了DBRX在Natural Questions和HotPotQA这两个RAG基准测试上的性能,其中模型还接收了从维基百科文章语料库中检索出的前10个段落(这些段落是通过嵌入模型bge-large-en-v1.5检索得到的)。在这种情况下,DBRX Instruct与开放模型如Mixtral Instruct、LLaMA2-70B Chat以及GPT-3.5 Turbo的当前版本展现出强大的竞争力。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

表4:各模型在使用bge-large-en-v1.5从维基百科语料库中检索出的前10篇文章时的性能表现。准确率通过匹配模型答案来测量。加粗为最高分,除GPT-4 Turbo外的最高分以下划线表示。

训练效率

在评估模型质量时,我们必须考虑模型的训练和使用效率。对于Databricks而言,这一点尤为重要,因为我们构建的DBRX等模型旨在为客户提供一个训练他们自己的基础模型的流程。

我们发现,训练混合专家模型能够显著提高训练的计算效率(如表5所示)。以DBRX家族中的较小成员DBRX MoE-B为例,它拥有235亿的总参数和66亿的活动参数。在达到Databricks LLM Gauntlet的45.5%得分时,DBRX MoE-B所需的浮点运算次数(FLOPs)比LLaMA2-13B达到43.8%得分时所需的运算次数减少了1.7倍。此外,DBRX MoE-B的活动参数数量也只有LLaMA2-13B的一半。这充分展示了DBRX MoE-B在训练效率上的优势。

综合来看,我们的端到端大型语言模型(LLM)预训练流程在过去十个月中已变得近四倍的计算高效。2023年5月5日,我们发布了MPT-7B,这是一个拥有70亿参数的模型,在1万亿个标记上进行训练,并达到了Databricks LLM Gauntlet的30.9%得分。DBRX家族中的DBRX MoE-A模型(总参数为77亿,活动参数为22亿)以3.7倍更少的浮点运算次数(FLOPs)达到了Databricks Gauntlet的30.5%得分。这种高效性得益于多项改进,包括混合专家(MoE)架构的采用、网络架构的其他优化、更先进的优化策略、改进的分词方法,以及——尤为重要的是——更高质量的预训练数据。

单独考虑预训练数据的影响,我们发现其对模型质量有着显著的提升作用。我们利用DBRX预训练数据训练了一个70亿参数的模型,命名为DBRX Dense-A。它在Databricks Gauntlet上的得分高达39.0%,远超MPT-7B的30.9%。我们估计,相较于用于训练MPT-7B的数据,我们的新预训练数据在标记利用率上至少高出两倍。换句话说,达到相同模型质量所需的标记数量减少了一半。这一结论是通过在5000亿个标记上训练DBRX Dense-A得出的,其性能在Databricks Gauntlet上超过了MPT-7B,得分达到32.1%。除了数据质量的提升,GPT-4分词器也是提高标记效率的重要因素之一,其庞大的词汇表和高效的标记处理能力为模型性能的提升作出了贡献。这些关于提升数据质量的经验将直接转化为我们的客户在训练基础模型时所采用的实际操作工具和策略。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

表5:用于验证DBRX MoE架构和端到端训练管道训练效率的几篇测试文章的详细信息

推理效率

图2展示了使用英伟达 TensorRT-LLM并结合我们优化的服务基础设施和16位精度技术为DBRX和类似模型提供的端到端推理效率。我们力求使这一基准测试尽可能贴近真实世界的使用场景,包括多个用户同时访问同一推理服务器的情况。我们每秒创建一个新用户,每个用户请求包含约2000个标记的提示,而每个响应则返回包含256个标记的内容。

一般而言,混合专家(MoE)模型在推理速度方面往往比其总参数数量所预示的要快。这是因为它们为每个输入使用的参数相对较少。我们发现DBRX在这方面也不例外。具体来说,DBRX的推理吞吐量比1320亿参数的非MoE模型高出2-3倍。

推理效率和模型质量通常是一对矛盾:更大的模型往往能达到更高的质量,但更小的模型在推理时则更为高效。然而,使用MoE架构使得在模型质量和推理效率之间取得比传统密集模型更优的权衡成为可能。例如,DBRX不仅质量上超越了LLaMA2-70B,而且由于活动参数数量大约减少了一半,DBRX的推理吞吐量甚至最高可达2倍(如图2所示)。Mixtral是MoE模型在改进帕累托前沿上的又一个杰出代表:它虽然比DBRX小,因此在质量上略有降低,但却实现了更高的推理吞吐量。使用Databricks Foundation Model API的用户可以期待,在我们的优化模型服务平台上采用8位量化技术时,DBRX的推理速度能够达到每秒最多150个标记。

Databricks正式发布全新开源模型DBRX,轻松击败LLaMA2-70B、Mixtral和Grok-1

图2:在我们优化的服务基础设施上,使用NVIDIA TensorRT-LLM在16位精度下,采用我们能够找到的最佳优化标志,各种模型配置的推理吞吐量。模型在整个节点上以张量并行方式运行。输入提示包含约2000个提示标记,我们生成256个输出标记。每秒钟产生一个新用户。

我们如何构建DBRX

DBRX是在3072个通过3.2Tbps Infiniband连接的英伟达 H100上完成训练的。从预训练、后训练、评估、红队测试到精炼,构建DBRX的整个过程历经三个月。这三个月的工作是对之前数月科研、数据集研究以及扩展实验成果的延续,更不用说Databricks在LLM领域多年的积累,包括MPT和Dolly项目,以及我们与客户共同打造并投入生产的数千个模型。

在构建DBRX的过程中,我们充分利用了与客户相同的Databricks工具套件。我们使用Unity Catalog来管理和治理训练数据,通过新引入的Lilac AI探索这些数据,借助Apache Spark™和Databricks笔记本对数据进行处理和清洗。我们采用优化后的开源训练库——MegaBlocks、LLM Foundry、Composer和Streaming——来训练DBRX。同时,我们利用Mosaic AI Training服务在数千个GPU上管理大规模模型的训练和微调工作。我们使用MLflow记录实验结果,并通过Mosaic AI Model Serving和Inference Tables收集人类反馈,以不断提升模型的质量和安全性。此外,我们还利用Databricks Playground手动对模型进行实验。我们发现,Databricks的工具在其各自的应用领域中表现卓越,并且由于它们都是Databricks统一产品体验的一部分,我们得以从中获得极大的便利和效益。

使用Databricks开启DBRX之旅

如果您希望立即开始使用DBRX,借助Databricks Mosaic AI Foundation Model API,您可以轻松实现这一目标。我们提供即用即付的定价模式,让您能够快速上手,并通过AI Playground聊天界面查询模型。对于生产环境中的应用,我们提供预配置的吞吐量选项,确保卓越性能,支持微调模型,并提供额外的安全性和合规性保障。如果您希望私有托管DBRX,只需从Databricks Marketplace下载模型,并在Model Serving上进行部署即可。

Databricks Marketplace地址:https://marketplace.databricks.com/details/357c33c9-7cd3-48d2-bb5b-b4a88172d193/Databricks_DBRX-Models

结论

在Databricks,我们坚信,在新兴的GenAI时代,每个企业都应能够掌控其数据和未来。DBRX是我们下一代GenAI产品的核心支柱,我们期待客户在利用DBRX及其构建工具的能力时,能够踏上激动人心的旅程。过去一年,我们与客户携手合作,共同训练了数千个LLM。DBRX只是Databricks为广泛应用场景——从内部功能到客户的大胆用例——所构建的强大且高效的模型的一个缩影。

与任何新模型一样,DBRX的旅程才刚刚开始,而最出色的工作将由那些在其基础上进行创新和拓展的企业和开放社区完成。这也只是我们在DBRX项目上的起点,未来您将见证更多精彩内容。

贡献

DBRX的开发工作由Mosaic团队主导,该团队此前已成功打造了MPT模型家族。此外,我们的研发工作还得到了来自Databricks不同领域的数十位工程师、律师、采购与财务专家、项目经理、市场人员、设计师以及其他贡献者的鼎力相助。我们由衷感谢过去数月里,同事们、朋友们、家人们以及社区成员给予我们的耐心与支持。

在DBRX的创建过程中,我们借鉴了开放与学术社区中的众多智慧成果。我们决定将DBRX公开,旨在回馈社区,并期待未来能与大家携手共创更先进的技术。为此,我们衷心感谢Trevor Gale及其MegaBlocks项目(Trevor的博士导师正是Databricks的首席技术官Matei Zaharia)、PyTorch团队和FSDP项目、NVIDIA和TensorRT-LLM项目、vLLM团队和项目、EleutherAI及其LLM评估项目、Lilac AI的Daniel Smilkov和Nikhil Thorat,以及艾伦人工智能研究所(AI2)的各位朋友,感谢他们在工作和合作中做出的贡献。

关于Databricks

Databricks是一家专注于数据和人工智能领域的领先企业。全球已有超过10,000家组织——包括Comcast、Condé Nast、Grammarly以及超过半数的财富500强企业——选择使用Databricks数据智能平台,以实现数据的统一管理和民主化,并推动分析和人工智能的发展。Databricks总部位于旧金山,并在全球各地设有办事处,由Lakehouse、Apache Spark™、Delta Lake和MLflow等技术的原始创建者共同创立。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论