Facebook母公司Meta采用1.6万个英伟达GPU建造世界最快AI超算

2022-01-25 11:40:48 来源:EETOP
Facebook母公司Meta Platforms周一表示,其研究团队已经建造了一台新的人工智能超级计算机,它认为该计算机在2022年中期完工时将成为世界上最快的计算机。

Meta在一篇博客文章中表示,其新的AI Research SuperCluster(RSC)将帮助该公司构建更好的AI模型,这些模型可以从数万亿个示例中学习,跨数百种语言工作,并一起分析文本,图像和视频以确定内容是否有害。

"这项研究不仅有助于确保人们今天对我们服务的安全,而且在未来,当我们为元宇宙构建时,"该公司在一篇博客文章中说。

这家社交媒体公司于10月更名为Meta,以反映其对Metaverse的关注,它认为Metaverse将成为移动互联网的继任者。

Metaverse是一个广义的术语,最近几个月在硅谷引起了很多嗡嗡声,指的是共享虚拟环境的想法,人们可以通过不同的设备访问这些环境,并且可以在那里工作,娱乐和社交。

"我们为元宇宙构建的体验需要巨大的计算能力(每秒数万亿次操作!RSC将实现新的AI模型,可以从数万亿个例子中学习,理解数百种语言等等,"Meta首席执行官MarkZuckerberg周一在Facebook帖子中写道。

Meta表示,它认为RSC是目前运行速度最快的AI超级计算机之一。Meta发言人表示,该公司已与英伟达、PureStorage 和Penguin Computing 合作建造超级计算机。

对于网络,超级计算机将配备 Nvidia 的 Quantum InfiniBand 网络系统,该系统可输出高达 200Gb/s 的带宽。存储方面,超级计算机配备了 175PB 的 Pure Storage FlashArray、10PB的Pure Storage FlashBlade 和 46PB 的缓存存储。

 

 

RSC 的工作始于一年半前,Meta 的工程师完全从头开始设计机器的各种系统——冷却、电源、网络和布线。RSC 的第一阶段已经启动并运行,由 760 个Nvidia GGX A100 系统组成,其中包含 6,080 个连接的 GPU(一种特别擅长解决机器学习问题的处理器)。Meta 表示,它已经在其标准机器视觉研究任务上提供了高达 20 倍的性能提升。

不过,在 2022 年底之前,RSC 的第二阶段将完成。届时,它将包含大约 16,000 个 GPU,并将能够“在 1 艾字节大的数据集上使用超过一万亿个参数”训练 AI 系统。(这个原始的 GPU 数量仅提供了一个系统整体性能的狭隘指标,但为了比较,微软使用研究实验室 OpenAI 构建的 AI 超级计算机是由 10,000 个 GPU 构建的。)

一旦完成,RSC 的计算能力应该是当前系统的近 2.5 倍,使其成为世界上最快的超级计算机之一。

AI超算与通用超算

这些数字都非常令人印象深刻,但它们确实引发了一个问题:到底什么是人工智能超级计算机?它与我们通常认为的超级计算机——大学和政府部署的用于处理太空、核物理和气候变化等复杂领域的数字的大型计算机相比,又如何呢?

这两种类型的系统,称为高性能计算机或 HPC,肯定比它们不同之处更相似。两者在尺寸和外观上都比单个计算机更接近数据中心,并且依赖大量互连的处理器以极快的速度交换数据。但正如 Hyperion Research 的 HPC 分析师 Bob Sorensen 的解释,两者之间存在关键差异。Sorensen 说:“基于 AI 的 HPC 生活在一个与传统 HPC 同行有所不同的世界中,最大的区别在于准确性。

简单的解释是,机器学习要求的准确性低于传统超级计算机的任务,因此“人工智能超级计算机”(最近的一个品牌)可以比使用相同硬件的普通兄弟每秒执行更多的计算。这意味着当 Meta 说它建造了“世界上最快的AI超级计算机”时,它不一定与你经常在新闻中看到的超级计算机进行直接比较(排名由独立的http://Top500.org编制,每年发布两次)。

为了进一步解释这一点,您需要知道超级计算机和 AI 超级计算机都使用所谓的浮点算法进行计算——这是一种数学简写,对于使用非常大和非常小的数字(“浮点数”)进行计算非常有用”是小数点,它在有效数字之间“浮动”)。浮点计算中部署的准确度可以根据不同的格式进行调整,大多数超级计算机的速度是使用所谓的每秒 64 位浮点运算或 FLOP 来计算的。但是,由于 AI 计算对精度的要求较低,因此 AI 超级计算机通常以 32 位甚至 16 位 FLOP 来衡量。这就是为什么比较两种类型的系统不一定是苹果对苹果,

Sorensen还提出了一个额外的警告。与评估硬件的“速度和馈送”方法经常发生的情况一样,吹嘘的最高速度并不总是具有代表性。“HPC 供应商通常会引用性能数据,表明他们的机器可以运行的绝对速度。我们称之为理论峰值性能,”Sorensen 说。“然而,一个好的系统设计的真正衡量标准是能够在他们设计的工作上快速运行。事实上,一些 HPC 在运行实际应用程序时实现的所谓峰值性能不到 25% 的情况并不少见。”

换句话说:超级计算机的真正效用在于它们所做的工作,而不是它们理论上的峰值性能。对于 Meta,这项工作意味着在对公司的信任处于历史最低点的时候建立审核系统,并意味着创建一个新的计算平台——无论是基于增强现实眼镜还是元宇宙——它可以在面对谷歌、微软和苹果等竞争对手。人工智能超级计算机为公司提供了原始动力,但 Meta 仍然需要自己找到制胜战略。

  1. EETOP 官方微信

  2. 创芯大讲堂 在线教育

  3. 创芯老字号 半导体快讯

相关文章

全部评论

@2003-2024 EETOP