Hot Chips 2023!英特尔揭秘:144 核 Sierra Forest、Granite Rapids 架构和至强路线图

2023-08-29 10:45:26 来源:EETOP

本文由EETOP编译自tomshardware

芯片行业一年一度的盛会Hot Chips正在举行,本届大会为期三天,NVIDIA、高通、英特尔AMD、谷歌、SK海力士、三星、Arm、IBM等芯片巨头,Meta、微软等科技巨头,晶圆级芯片创企Cerebras、光子AI芯片创企曦智科技、稀疏化计算AI芯片创企墨芯人工智能RISC-V服务器处理器创企Ventana、RISC-V IP供应商SiFive等具有代表性的创业公司,均发表了展现当前芯片工业界前沿趋势的主题演讲。披露各自的最新进展及未来规划。

今天为大家介绍英特尔刚刚分享的其144 核 Sierra Forest、Granite Rapids 架构和至强路线图。

image.png

在 Hot Chips 2023 上,英特尔首次深入展示了其未来 144 核 Xeon Sierra Forest和 Granite Rapids 处理器,前者由英特尔全新 Sierra Glen E 核心组成,后者则采用全新 Redwood Cove P 核心。即将推出的第五代 Xeon 芯片将于明年上半年推出,采用新的基于tile-based架构,该架构在Intel 7工艺上配备双 I/O 小芯片,并与Intel 3制成上制造的不同配置的计算核心搭配使用。这种设计使英特尔能够根据不同类型的内核打造多种产品,同时保持相同的底层配置,从而保留硬件和固件的兼容性。
Sierra Forest 和 Granite Rapids 与 Birch Stream 平台兼容(插槽、内存、固件和 I/O 兼容),提供了简化的硬件验证流程。它们还可以与相同的软件堆栈互操作,因此客户可以根据自己的需要采用其中任何一种芯片
英特尔声称,与第四代至强芯片相比,第五代至强Sierra Forest基于E-Core的设计将提供高达2.5倍的机架密度和2.4倍的每瓦性能,而采用P-Core的Granite Rapids将在混合人工智能工作负载中提供2至3倍的性能,,部分原因在于内存带宽“高达”2.8 倍的提升。让我们深入了解一下。

Sierra Forest 和 Granite Rapids架构

图片

图片

图片

图片

图片

图片

图片

英特尔最初在其第四代至强 Sapphire Rapids处理器上采用了tile-based(类似于小芯片组)的架构,但 Sierra Forest 和 Granite Rapids 将该方法的分解提升到了一个新的水平。
英特尔在 Sapphire Rapids处理器中采用了四芯片设计,每个芯片包含一部分相关的 I/O 功能,如内存和 PCIe 控制器。新的第五代处理器将一些 I/O 功能完全分解为两个独立的 HSIO 小芯片,这些小芯片蚀刻在 Intel 7 工艺上,这为 I/O 提供了成本、功耗和性能的最佳平衡,同时 CPU 内核和内存控制器驻留在其中在他们自己的专用计算芯片上。
计算模块将采用适用于 Granite Rapids 的 Redwood Cove P 核心(性能核心)或适用于 Sierra Forest 的 Sierra Glen E 核心——英特尔不会提供在同一封装中包含这两种类型核心的型号。这些计算芯片配备了支持 EUV 的 Intel 3 工艺,该工艺具有Intel 4 工艺中未包含的高密度库。由于将设计从“Intel 4”切换为“Intel 3”,英特尔最初将 Granite Rapids Xeons 从 2023 年推迟到 2024 年,但这些芯片仍按计划在 2024 年上半年推出。
Granite Rapids 是我们所理解的传统 Xeon 数据中心处理器 - 这些型号仅配备 P 核,可以提供英特尔最快架构的全部性能。每个 P 核均配有 2MB 的 L2 缓存和 4MB 的 L3。英特尔尚未透露 Granite Rapids 的核心数量,但透露了该平台在单个服务器中支持 1 到 8 个插槽。
与此同时,Sierra Forest 的 E-core(效率核心)系列由仅具有较小效率核心的芯片组成,就像我们在英特尔的 Alder 和 Raptor Lake 芯片中看到的那样,使它们能够很好地与数据中越来越流行的 Arm 处理器竞争中心。E 核心排列成两个或四个核心集群,共享 4MB 二级缓存和 3MB 二级缓存。配备 E-Core 的处理器配备多达 144 个内核,并针对最高的功效、面积效率和性能密度进行了优化。这意味着每个 E 核计算芯片拥有 48 个核心。Sierra Forest 可以接入单插槽和双插槽系统,TDP 低至 200W。
无论核心类型如何,每个计算芯片都包含核心、L2 和 L3 缓存以及结构和缓存归属代理 (CHA)。它们还在芯片的每一端安装了 DDR5-6400 内存控制器,标准 DDR 内存或新的MCR 内存总共具有多达 12 个通道(1DPC 或 2DPC),可提供比标准 DIMM 多 30-40% 的内存带宽。
正如您在上面所看到的,计算小芯片将根据模型有不同的大小,单计算芯片产品配有更大的计算集群。英特尔还将改变每个计算小芯片的内存通道数量——在这里,我们看到具有单个计算小芯片的产品上有三个内存控制器,而具有两个或更多计算小芯片的设计有两个内存控制器。与 AMD 的 EPYC 设计相比,英特尔决定将其内存控制器紧密集成到计算芯片中,这应该会带来卓越的内存性能,AMD 的 EPYC 设计在一个中央 I/O 芯片上采用所有内存控制器,从而增加了延迟。
计算芯片与所有其他内核共享 L3 缓存,英特尔将其称为“逻辑整体网格”,但它们也可以划分为子 NUMA 集群,以优化某些工作负载的延迟。该网格将 L3 缓存切片连接到一个统一的共享缓存中,总容量总计超过 0.5 GB,几乎比 Sapphire Rapids 大 5 倍。每个芯片边界支持芯片之间超过 TB/s 的带宽。
两个 HSIO 裸片放置在芯片封装的顶部和底部,中间有一到三个计算裸片,所有这些裸片均与未指定数量的 EMIB(嵌入式多裸片互连桥)互连连接在一起,这些互连融合在基板内并连接到桥的每一端都有芯片芯片互连。
两个 HSIO 芯片相结合,支持多达 136 个 PCIe 5.0/ CXL 2.0通道(类型 1、2 和 3 设备)、多达 6 个 UPI 链路(144 个通道),以及类似的压缩、加密和数据流加速器。Sapphire Rapids 加速引擎的时尚。每个 HSIO 芯片还包括管理计算小芯片电源控制电路,尽管每个计算小芯片也有自己的电源控制,可以在需要时独立运行。英特尔现在已经取消了对芯片组 (PCH) 的要求,从而允许处理器自启动,就像 AMD 的 EPYC 处理器一样。
英特尔 Sierra Glen E-Core 微架构

EUVCMUao4y7DtzY6B7iaiaVpuibYWA/640?wx_fmt=png" data-type="png" data-w="900" data-index="10" src="https://www.eetop.cn/uploadfile/2023/0829/20230829113840989.jpg" _width="677px" crossorigin="anonymous" alt="图片" data-fail="0" style=";padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;vertical-align: bottom;height: auto !important;width: 677px !important;visibility: visible !important"/>

图片

图片

图片

图片

图片


Sierra Glen 微架构经过优化,可在标量吞吐量工作负载(例如横向扩展、云原生和容器化环境)中实现最佳效率。该架构具有两核或四核集群,使英特尔能够为某些型号提供每核更高的二级缓存容量和每核更高的性能(通过为两核模块提供更高的功率输出)。每个核心集群驻留在相同的时钟和电压域上。E-core集群共享4MB L2缓存片和3MB共享L3缓存。
与前几代一样,每个 E 核心都是单线程。英特尔还将 L1 缓存加倍至 64KB,并采用 6-wide解码器(双 3 宽以改善延迟和功耗)、5-wide分配器、8-wide retire。Sierra Glen 核心不支持 AMX 或 AVX-512,它们将依赖AVX10,但英特尔确实添加了对 BF16、FP16、AVX-IFMA 和 AVX-DOT-PROD-INT8 的支持。  
英特尔 Redwood Cove P 核微架构

图片

图片

图片

图片

图片

图片

图片

P 核的 Redwood Cove 架构现在支持具有 FP16 加速的 AMX,这是一项将提升 AI 推理工作负载性能的关键补充。英特尔还将 L1 指令缓存容量增加了一倍,达到 64 KB,以更好地解决代码繁重的数据中心工作负载。Redwood Cove 还采用软件优化的预取以及增强的分支预测引擎和错误恢复。英特尔还通过将 4 周期和 5 周期 FP 运算改为 3 周期来提高浮点性能,从而提高了 IPC。
英特尔至强路线图

图片

图片

图片

图片

对于英特尔来说,有一个好消息,该公司的数据中心路线图仍然按计划进行。Sierra Forest 将于 2024 年上半年上市,Granite Rapids 也将紧随其后。

图片

在这里我们可以看到英特尔的路线图与AMD 的数据中心路线图的对比 。当前高性能之战在AMD去年推出的EPYC Genoa英特尔今年年初推出的Sapphire Rapids之间展开。英特尔将于今年第四季度推出新一代Emerald Rapids ,该公司表示,该产品将配备更多内核和更快的时钟速率,并且已经发布了注入 HBM 的 Xeon Max CPUAMD最近发布了5nm Genoa-X产品。明年,英特尔的下一代 Granite Rapids 将与 AMD 的 Turin 展开对决。
在效率泳道中,AMD 的 Bergamo 采用了与 Sierra Forest 非常相似的重核心方法,利用了 AMD 密集的Zen 4c核心。Bergamo已经上市,而英特尔的 Sierra Forrest 要到 2024 年上半年才会上市。AMD 的第五代 EPYC Turin 芯片将于 2024 年底前推出,但该公司尚未概述其第二代 Zen 4c 型号。英特尔现已将其第二代 E 核驱动的 Clearwater Forest 列入 2025 年路线图。


  1. EETOP 官方微信

  2. 创芯大讲堂 在线教育

  3. 创芯老字号 半导体快讯

相关文章

全部评论

@2003-2024 EETOP