当前位置：首页 > 情报 >硬件情报>文章详情

英特尔发布新一代AI芯片Gaudi 3：号称性能远超英伟达H100，能效是英伟达芯片的两倍多

2年前 (2024-04-10) | 分类：硬件情报 | 热度： 21 ℃

暂无评论

英特尔震撼发布新一代人工智能芯片——Gaudi 3，其卓越性能远超市场竞品英伟达H100，再度引领人工智能计算领域的技术革新。

据了解，Gaudi 3的能效表现出色，相较英伟达芯片，其能效提升显著，高达两倍多。这一突破性的能效表现，意味着在相同的能耗下，Gaudi 3能够完成更多的计算任务，为企业节省大量能源成本。

更值得一提的是，Gaudi 3在运行AI模型的速度上也表现出色。与英伟达H100 GPU芯片相比，其速度达到了惊人的1.5倍。这一速度优势将极大地提升AI训练和推理的效率，加快企业的研发进程，为创新提供更强有力的技术支持。

英特尔发布新一代AI芯片Gaudi 3：号称性能远超英伟达H100，能效是英伟达芯片的两倍多

Gaudi 3采用先进的5nm工艺制造，带宽和BF16功率分别是前代Gaudi 2的1.5倍和4倍。这一升级使得芯片在处理大规模数据和高复杂度计算任务时更加得心应手。此外，Gaudi 3还配备了最高128GB的HBM2e内存，峰值带宽达3.7TB/s，进一步提升了数据处理能力。

作为专门为AI应用场景设计的芯片，Gaudi系列一直以其优化的计算效率和性能而著称。Gaudi 3的发布，不仅延续了这一优良传统，更在性能上实现了质的飞跃。特别值得一提的是，它特别适合处理大规模的深度学习模型，为人工智能领域的创新和发展提供了强大的硬件支持。

英特尔发布新一代AI芯片Gaudi 3：号称性能远超英伟达H100，能效是英伟达芯片的两倍多

以下是官方全文翻译：

在英特尔视觉大会上，英特尔推出了Intel® Gaudi® 3 AI加速器。这款加速器在BF16上实现了4倍的AI计算能力，内存带宽提升了1.5倍，网络带宽也提升了2倍。与前代产品相比，它在大规模系统扩展方面取得了显著的性能和生产力提升，特别适用于流行的大型语言模型（LLMs）和多模态模型的AI训练和推理。

Intel® Gaudi® 3 AI加速器继承了Intel® Gaudi® 2 AI加速器的卓越性能和效率，后者是市场上唯一针对LLMs进行过MLPerf基准测试的解决方案。现在，英特尔通过提供基于开放社区的软件和符合行业标准的以太网网络，为客户提供了更加灵活的系统扩展选择。

目前，金融、制造和医疗等关键行业的企业正急于扩大AI的覆盖范围，并将生成式AI（GenAI）项目从试验阶段推向全面应用。为了实现这一转变、推动创新并达成收入增长目标，企业需要寻找开放、经济高效且节能的解决方案和产品，以满足投资回报率（ROI）和运营效率的需求。

Intel Gaudi 3加速器正好满足了这些需求，它利用基于开放社区的软件和符合行业标准的以太网技术，为企业提供了灵活扩展AI系统和应用的能力。

英特尔发布新一代AI芯片Gaudi 3：号称性能远超英伟达H100，能效是英伟达芯片的两倍多

如何通过定制架构实现生成式 AI (Generative AI, GenAI) 的性能与效率：英特尔 Gaudi 3 加速器专为高效的大规模 AI 计算而设计，采用 5nm 工艺制造，并在前一代产品的基础上取得了显著进步。该加速器能够并行激活所有引擎——包括矩阵乘法引擎 (Matrix Multiplication Engine, MME)、张量处理器核心 (Tensor Processor Cores, TPCs) 以及网络接口卡 (Networking Interface Cards, NICs)——为快速、高效的深度学习计算提供必要的加速能力。其关键特性包括：

专为 AI 定制的计算引擎：英特尔 Gaudi 3 加速器专为高性能、高效率的 GenAI 计算而构建。每个加速器都包含一个由 64 个 AI 定制和可编程的 TPCs 以及 8 个 MMEs 组成的异构计算引擎。每个 Gaudi 3 MME 能够执行高达 64,000 个并行操作，提供极高的计算效率，特别擅长处理深度学习算法中基础的复杂矩阵运算。这一独特设计提高了并行 AI 操作的速度和效率，并支持多种数据类型，如 FP8 和 BF16。
满足大语言模型 (Large Language Model, LLM) 容量需求的内存增强：128GB 的高带宽内存 2 (HBMe2)、3.7TB 的内存带宽和 96MB 的板载静态随机存取内存 (SRAM) 为处理大型 GenAI 数据集提供了充足的内存，尤其适合服务于大型语言和多模态模型，从而提升工作负载性能和数据中心的成本效率。
企业级 GenAI 高效系统扩展：每个英特尔 Gaudi 3 加速器内置了 24 个 200Gb 以太网端口，支持灵活且遵循开放标准的网络连接。这些端口能够高效地扩展以支持大型计算集群，并避免了专有网络架构所带来的供应商锁定问题。英特尔 Gaudi 3 加速器设计用于从单个节点到数千个节点的高效扩展，以满足 GenAI 模型的广泛需求。
面向开发者的开放行业软件提升生产力：英特尔 Gaudi 软件集成了 PyTorch 框架，并提供了针对 Hugging Face 社区模型的优化——这是目前 GenAI 开发者最常使用的 AI 框架。这使得开发者能够在一个高抽象层次上进行操作，简化了使用流程，提高了生产力，并便于在不同类型的硬件上移植模型。
Gaudi 3 PCIe：新品推出的 Gaudi 3 周边组件互连快速 (Peripheral Component Interconnect Express, PCIe) 附加卡，专为提高效率和降低功耗而设计，非常适合进行微调、推理和增强生成 (Retrieval-Augmented Generation, RAG) 等任务。该卡以全高形式因数提供，功耗为 600 瓦，内存容量为 128GB，带宽为 3.7TB/秒。

英特尔发布新一代AI芯片Gaudi 3：号称性能远超英伟达H100，能效是英伟达芯片的两倍多

Intel Gaudi 3加速器预计将为领先的生成式AI（GenAI）模型在训练和推理任务上带来显著的性能提升。具体而言，与Nvidia H100相比，Intel Gaudi 3加速器预计具有以下优势：

在Llama2 7B和13B参数模型，以及GPT-3 175B参数模型上，训练时间平均缩短50%。
在Llama 7B和70B参数模型，以及Falcon 180B参数模型上，推理吞吐量平均提升50%，推理能效提升40%。同时，对于更长的输入和输出序列，其推理性能优势更为明显。
与Nvidia H200相比，Intel Gaudi 3加速器在Llama 7B和70B参数模型，以及Falcon 180B参数模型上的推理速度平均提升30%。

英特尔发布新一代AI芯片Gaudi 3：号称性能远超英伟达H100，能效是英伟达芯片的两倍多

关于市场采纳和可用性：英特尔 Gaudi 3 加速器预计将于 2024 年第二季度以通用基板和开放加速模块 (Open Accelerator Module, OAM) 的行业标准配置提供给原始设备制造商 (Original Equipment Manufacturers, OEMs)。Dell Technologies、Hewlett Packard Enterprise、Lenovo 和 Supermicro 等知名 OEM 将推动 Gaudi 3 的市场采纳。英特尔 Gaudi 3 加速器预计将于 2024 年第三季度普遍上市，而 Gaudi 3 PCIe 附加卡预计将在同年第四季度推出。

英特尔 Gaudi 3 加速器还将支持多个性价比高的云大语言模型 (Cloud Large Language Model, LLM) 基础设施，用于训练和推理，为包括 NAVER 在内的组织提供价格性能优势和多样化选择。开发者现在就可以通过访问基于英特尔 Gaudi 2 的开发者云实例来开始学习、原型设计、测试和运行应用程序及工作负载。

展望未来：英特尔 Gaudi 3 加速器的发展势头将为英特尔下一代 AI 和高性能计算 (High-Performance Computing, HPC) 图形处理单元 (Graphics Processing Unit, GPU)——Falcon Shores 奠定基础。Falcon Shores 将整合英特尔 Gaudi 和英特尔® Xe 知识产权 (Intellectual Property, IP)，并基于英特尔® oneAPI 规范构建统一的 GPU 编程接口。

顶 (0 )

踩 (0 )

Gaudi 3 英特尔