内核数量比全球第一E级超算多1.6倍!世界最大芯片打造最强AI超级计算机!

2022-11-18 12:45:10 来源:EETOP

EETOP版图就业&提升班正式开班报名!


集成2.6万亿晶体管、一张晶圆只做一颗芯片世界上最大的芯片CS-2 Wafer Scale Engine背后的公司Cerebras 最近推出了基于CS-2 + 第三代 AMD EPYC 处理器的Andromeda (仙女座)超级计算机,
专门针对深度学习应用进行了优化。Andromeda 据称拥有比 1,953 个 NVIDIA A100 GPU 更多的内核,也拥有比世界排名第一的超算Frontier 超级计算机多 1.6倍的内核。Frontier 全球首台真正意义上达到ExaFLOP级别(百亿亿次)的超级计算机)

该公司正试图消除通用计算平台的常见挑战,例如在分布式GPI集群上实施培训所需的额外开销。有些分布式系统的3D配置对工程师来说很复杂的。

图片

分布式通用 GPU 中的 3D 并行性。 

Cerebras 最近发布了其Andromeda超级计算机,包括一个 AI 应用特定的硬件架构,可以在多个 GPT 语言模型上提供线性扩展训练;简而言之,训练时间随着所涉及的计算核心数量的增加而线性减少。这与计算单元与训练时间之间具有亚线性关系的通用 GPU 集群不同。

Cerebras 声称,由于内存和带宽限制,类似的工作不可能在 2,000 个NVIDIA A100 GPU 的集群上进行。

Andromeda 超级计算机的主要规格

Andromeda 建立在 Cerebras 的 CS-2 系统之上,包括总共1350万个 AI 优化计算核心和18,178 个第三代 AMD EPYC 处理器

图片


图片

据报道,Andromeda 可提供跨 GPT 语言模型的近线性缩放

该超级计算机还采用晶圆级集群和权重流,由 Cerebras 的 MemoryX 和 SwarmX 技术提供支持。Andromeda 产生 1 exaflop 的 AI 计算和 120 petaflops 的密集计算,具有 16 位半精度。

CS-2系统

Andromeda 拥有 16 个 CS-2 系统,每个系统都配备了 Cerebras 的Wafer-Scale Engine 2 (WSE-2) 处理器——一个 46,225 mm 2处理器和 2.6万亿个 7nm 晶体管。据报道,WSE-2 是“地球上最大的处理器”。配套的软件平台集成了 PyTorch 和TensorFlow,开箱即用。

图片

Cerebras CS-2

以下是 CS-2 的其他一些规格:

  • 850,000 个 AI 优化计算核心
  • 40 GB 集成SRAM
  • 20 PB/s 内存带宽
  • 220 PB/s 互连带宽
  • 1.2 TB/秒输入/输出
  • 12 个 100 GB 以太网链路
  • 15 个机架单元(RU)
  • 水冷
晶圆级集群

晶圆级集群通过在单个处理器中安装包括计算组件和参数组件的整个神经网络来充分利用 WSE-2 的大小。晶圆级集群还利用了数据并行性。分配簇数就像设置参数一样简单明了。

图片

这消除了在分布式系统上计划和配置训练模型的需要,这可能是复杂、缓慢且耗电的。此外,由于 AI 计算是在单个设备上完成的,因此训练速度更快。

权重流

Cerebras 的MemoryX 和 StreamX 技术支持权重流。MemoryX 管理片外模型权重的存储,包括将权重流式传输回处理器模型、计算更新的权重以及计时交付。MemoryX 可以支持 2000 亿到 120 万亿个参数,并声称速度与片上一样快。

图片

CS-2 集群的权重流

SwarmX 是存在于 MemoryX 和 CS-2 系统之间的另一种支持技术。它将权重分配给 CS-2 系统并将生成的梯度提供回 MemoryX。这两种技术共同实现了训练过程中的重量流。

研究人员利用 Andromeda 的超级计算

Cerebras 已为多家研发和学术机构提供了 Andromeda 的各种应用访问权限。 

阿贡国家实验室使用 GPT3-XL 模型和整个 COVID-19 基因组,利用 Andromeda 开发了基因转换器。与此同时,JasperAI 正在使用Andromeda 训练模型,这些模型将用于为广告、营销和书籍等书面材料撰写文案。 

Andromeda 托管在加利福尼亚州的 Colovore 数据中心,Cerebras现在可以访问更多潜在客户。


  1. EETOP 官方微信

  2. 创芯大讲堂 在线教育

  3. 创芯老字号 半导体快讯

相关文章

全部评论

@2003-2024 EETOP