当前位置：首页 > 情报 >AI情报>文章详情

Meta重磅宣布：打造超级GPU计算集群，训练Llama 3模型

2年前 (2024-03-12) | 分类： AI情报 | 热度： 20 ℃

暂无评论

Meta宣布他们正在开发两个拥有2.4万GPU的超级计算集群，并计划在2024年底使综合计算能力接近60万个H100 GPU。这些超级计算集群将主要用于支持多种人工智能任务，特别是训练Llama 3等大型人工智能模型。

Meta特别强调其对开放式计算和开源技术的承诺，这些集群均基于Grand Teton、OpenRack和PyTorch等平台构建而成。这些集群设计旨在支撑大型和复杂的人工智能模型，着重于提升性能、确保可靠性和扩展能力。

为实现这一目标，Meta采取了一系列策略。他们设计定制化的硬件设备，并采用先进的网络解决方案，如RDMA over converged Ethernet (RoCE)和英伟达Quantum2 InfiniBand网络技术。同时，他们还利用FUSE API和Tectonic分布式存储等技术来优化存储方案。

除了硬件优化，Meta也在注重通过软件优化以及与框架开发者（例如PyTorch）的合作，使其人工智能集群在最大化性能的同时，也易于使用。他们致力于与内部基础设施团队紧密合作，以适应不断进化的基础设施，并充分利用新型数据类型进行训练。

展望未来，Meta将继续评估和改进其基础设施的各个方面，以创建灵活可靠的系统，支持快速发展的新模型和研究。他们相信，通过持续的创新和合作，将能够推动人工智能领域的发展，并为社会带来更多价值。

Meta重磅宣布：打造超级GPU计算集群，训练Llama 3模型

原文地址：https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

以下是Meta官方介绍的全文翻译：

我们宣布推出两个包含24,000个GPU的集群，这标志着Meta在人工智能领域的一项重大投资。我们将分享有关硬件、网络、存储、设计、性能和软件的详细信息，这些要素共同助力我们从各种AI工作负载中提取出高吞吐量和可靠性。我们采用这种集群设计来训练Llama 3。
我们坚定地致力于开放计算和开源项目。这些集群基于Grand Teton、OpenRack和PyTorch构建，我们也将继续推动整个行业的开放式创新。
此次宣布只是我们宏伟基础设施规划中的一步。到2024年底，我们计划进一步扩大基础设施建设，包括部署350,000个英伟达 H100 GPU，这些GPU将构成计算能力相当于近600,000个H100的集群。

在AI领域取得领先地位，意味着要在硬件基础设施上进行大量投资。硬件基础设施在AI的未来发展中发挥着至关重要的作用。今天，我们将详细介绍Meta的两个24,576个GPU数据中心规模集群的版本。这些集群将支持我们当前和未来的AI模型，包括Llama 3（我们公开发布的LLM Llama 2的继任者），以及GenAI和其他领域的AI研发工作。

一窥Meta的大规模AI集群

Meta的长期愿景是构建开放且负责任的人工通用智能（AGI），使每个人都能从中受益。为了实现这一愿景，我们一直在努力扩展集群规模，以支持我们的宏伟目标。在迈向AGI的过程中，我们取得了显著的进展，这些进展不仅催生了新产品和新AI功能，还推动了以AI为核心的新型计算设备的发展。

尽管我们在AI基础设施的建设方面有着丰富的经验，但我们在2022年首次分享了关于AI研究超级集群（RSC）的详细信息。该集群配备了16,000个英伟达 A100 GPU，极大地加速了我们的开放且负责任的AI研究工作，帮助我们成功构建了第一代先进AI模型。RSC在Llama和Llama 2的开发中起到了关键作用，并且持续在计算机视觉、自然语言处理、语音识别、图像生成以及编码等多个应用领域的先进AI模型开发中发挥着重要作用。

Meta重磅宣布：打造超级GPU计算集群，训练Llama 3模型

深入探究

我们新一代的AI集群在继承RSC成功经验和教训的基础上进行了优化。我们专注于构建端到端的AI系统，特别强调研究者和开发者的体验与效率。这些集群内部高性能网络结构的优化，以及某些关键的存储决策，再加上每个集群中配备的24,576个英伟达 Tensor Core H100 GPU，使得这两个集群版本都能够支持比RSC更大、更复杂的模型，为GenAI产品开发和AI研究领域的进步铺平了道路。

网络

在Meta，我们每天需要处理数百万亿次的AI模型执行。为了满足这一需求，我们构建了一个高度先进且灵活的基础设施。通过自行设计大部分的硬件、软件和网络结构，我们成功优化了AI研究者的端到端体验，同时确保了数据中心的高效运行。

我们构建的一个集群采用了基于Arista 7800的Wedge400和Minipack2 OCP机架交换机的远程直接内存访问（RDMA）收敛以太网（RoCE）网络结构解决方案。另一个集群则配备了英伟达 Quantum2 InfiniBand结构。这两种方案都支持400 Gbps的端点互连。借助它们，我们能够评估这两种不同类型的互连技术在大规模训练中的适用性和可扩展性，为我们未来设计和构建更大规模的集群提供了宝贵的见解。通过精心协同设计网络、软件和模型架构，我们已成功在大型GenAI工作负载（包括在RoCE集群上进行的Llama 3训练）中使用RoCE和InfiniBand集群，且未出现任何网络瓶颈。

计算

这两个集群均采用了我们自主研发的开源GPU硬件平台——Grand Teton，该平台已贡献给开放计算项目（OCP）。Grand Teton是在我们多代AI系统的基础上发展而来的，这些系统将电源、控制、计算和织物接口集成到单个底盘中，从而实现了卓越的整体性能、信号完整性和热性能。其设计简洁，提供了快速的可扩展性和灵活性，使得我们能够迅速将其部署到数据中心集群，并且便于后期的维护和扩展。此外，结合我们在Open Rack电源和机架架构等方面的内部创新，Grand Teton让我们能够量身定制，满足Meta当前和未来的应用需求，打造出全新的集群。

自2015年起，我们就开始公开设计GPU硬件平台，最初从Big Sur平台起步。

存储

存储在AI训练中扮演着至关重要的角色，然而，它却是较少被提及的方面之一。随着时间的推移，GenAI训练任务变得越来越多样化，需要消耗大量的图像、视频和文本数据，因此对数据存储的需求也迅速增长。尽管如此，我们仍需将数据存储整合到一个高性能且节能的架构中，这使得问题变得更加复杂且有趣。

为了满足AI集群的数据和检查点需求，我们采用了自主研发的Linux用户空间文件系统（FUSE）API。该API基于Meta的“Tectonic”分布式存储解决方案的一个版本，经过优化以适应闪存媒体。这一方案不仅让数千个GPU能够同步地保存和加载检查点（这对于任何存储解决方案来说都是一个挑战），而且还提供了灵活且高吞吐量的EB级存储，满足数据加载的需求。

此外，我们还与Hammerspace合作，共同开发和部署了一个并行网络文件系统（NFS），以满足AI集群的开发者体验需求。Hammerspace的一大优势在于，它使得工程师能够利用数千个GPU进行交互式调试，因为代码更改可以立即在整个环境中的所有节点上生效。将我们的Tectonic分布式存储解决方案与Hammerspace相结合，我们可以在不牺牲规模的前提下实现快速的迭代速度。

我们GenAI集群中的存储部署，无论是基于Tectonic还是Hammerspace的，都采用了YV3 Sierra Point服务器平台，该平台配备了目前市场上最新、容量最高的E1.S SSD。除了SSD容量的大幅提升外，我们还针对每台机架上的服务器进行了定制优化，以实现每台服务器吞吐量、机架数量减少和能效提升之间的平衡。通过使用像乐高积木一样的OCP服务器作为构建模块，我们的存储层不仅能够灵活适应当前集群的需求，还能满足未来更大规模AI集群的扩展需求。同时，它还具备出色的容错能力，能够应对日常基础设施维护操作中的各种挑战。

性能

在构建我们的大规模AI集群时，我们坚持一个原则：同时最大化性能和易用性，而非牺牲其中一个以达成另一个。这一原则在打造卓越AI模型中显得尤为重要。

随着AI系统的边界不断被突破，验证我们扩展设计能力的最佳途径就是构建一个系统，对其进行优化，并进行实际测试（尽管模拟器能为我们提供帮助，但其作用有限）。在设计过程中，我们对比了小集群与大集群的性能表现，以找出存在的瓶颈。在下图中，我们展示了AllGather集体性能（以0-100范围内的归一化带宽来表示），当大量GPU在预期达到最佳性能的消息大小上进行通信时的情况。

与经过优化的小集群相比，我们大型集群的初始开箱性能较差且表现不稳定。为了改善这一状况，我们对内部作业调度器进行了多项改进，使其能够更智能地根据网络拓扑意识调度作业——这不仅降低了延迟，还减少了网络上层的流量负担。此外，我们还优化了网络路由策略，并结合英伟达集体通信库（NCCL）的更新，以实现网络利用率的最大化。这些改进措施使得我们的大型集群性能得以显著提升，达到了与小集群同样出色且符合预期的水平。

Meta重磅宣布：打造超级GPU计算集群，训练Llama 3模型

除了针对我们内部基础设施进行的软件优化，我们还与负责编写训练框架和模型的团队紧密合作，以适应我们不断进化的基础设施。举例来说，英伟达 H100 GPU的出现为我们利用新型数据类型（如8位浮点数，即FP8）进行训练提供了可能。为了充分发挥更大集群的潜力，我们投资了额外的并行化技术，同时新的存储解决方案也为我们提供了在数千个节点上高度优化检查点的机会，使检查点运行时间缩短至数百毫秒。

同时，我们也认识到，在大规模训练中，可调试性是一大挑战。在超大规模环境下，识别导致整个训练作业停滞的问题GPU变得异常困难。因此，我们正在开发一些新工具，如异步调试或分布式集体飞行记录器，以揭示分布式训练的细节，从而帮助我们以更快、更便捷的方式识别问题。

最后，我们持续对PyTorch这一基础AI框架进行迭代更新，使其能够胜任数万甚至数十万GPU的训练工作负载。我们已经识别并解决了多个进程组初始化的瓶颈问题，将启动时间从有时长达数小时缩短至数分钟。