令人兴奋的IBM “人脑” AI 芯片

2023-10-30 12:19:45 来源:EETOP
IBM Research 日前推出 AI 芯片 NorthPole,该芯片灵感号称“来自人类大脑的运作”。NorthPole 芯片消除了频繁访问外部存储器的需要,因此比现有架构更快地执行图像识别等任务,同时消耗的电量大大减少。推论性能据称超越 4nm GPU,适用于边缘计算等范畴。

经过查询得知,NorthPole 芯片 IBM 曾在 2014 模拟人脑运作 TrueNorth 芯片的后继者,芯片开发同样由 TrueNorth 芯片负责人 Dharmendra Modha 所主导。

1.jpg

据悉,在传统的半导体产业中,芯片主要遵循相同的基本架构,处理单元与储存信息是相互分开的,这种架构虽然简化了芯片设计模式,却也因传输速度赶不上处理速度而出现了 诺伊曼瓶颈(von Neumann Bottleneck,而 Dharmendra Modha 则认为,人脑是目前所知最节能的处理器,因而持续寻找以数字方式复制人脑的方法。

IBM 目前推出的 NorthPole 芯片,相对于传统芯片最大的不同点在于“芯片内置存储器”,在没有“冯 诺伊曼瓶颈”的情况下,NorthPole 芯片AI 推论能力优于市面上竞品。

“它的能源效率令人惊叹,”巴黎萨克雷大学帕莱索分校的纳米电子学研究员达米安·奎利奥兹 (Damien Querlioz) 说道。他说,这项发表在Science 1上的研究表明,计算和内存可以大规模集成。“我觉得这篇论文将动摇计算机架构中的普遍思维。”

研究合著者、IBM 计算机工程师 Dharmendra Modha 表示,这些核心在一个网络中连接在一起,其灵感来自于人类大脑皮层各部分之间的白质连接。这一设计原则和其他设计原则(其中大部分以前就存在,但从未被整合到一个芯片中)使 NorthPole 在图像识别的标准基准测试中以大幅优势击败现有的人工智能机器。尽管没有使用最新、最小型化的制造工艺,但它使用的能量仅为最先进人工智能芯片的五分之一。作者估计,如果 NorthPole 设计采用最新的制造工艺,其效率将比当前设计提高 25 倍。

NorthPole 运行神经网络:简单计算单元的多层阵列,经过编程可识别数据模式。底层接收数据,例如图像中的像素;每个连续层都会检测复杂性不断增加的模式,并将信息传递到下一层。顶层产生一个输出,例如,可以表示图像包含猫、汽车或其他物体的可能性。

虽然 NorthPole 采用 12nm 工艺,于 800 平方毫米上安置了 220 亿个晶体管,拥有 256 个核心,于 8-bit 精度下每核心每个周期可执行 2048 次操作,若是在 4-bit 或 2-bit 精度下,操作次数则可翻倍。

图片

 搭载 NorthPole 的 PCIe 卡,图源 IBM

在具体架构上,NorthPole 号称模糊了运算与存储间的界线,这让 NorthPole 容易整合至系统,且明显减少了搭载芯片的设备负载。

IBM Research 在 ResNet-50 模型上测试 NorthPole,相较于同样基于 12nm 工艺的 GPU 竞品,NorthPole 每秒辨识帧数的能效是竞品的 25 倍,而且不管是在延迟或运算空间的要求上,表现都优于市面上所有主流架构,甚至凌驾基于 4nm 工艺的 GPU

不过,NorthPole 的优势同时也是它的弱点所在,NorthPole 只能轻松读取集成在芯片中的本地数据信息,读取外界数据时,便没有计算速度优势。

Modha 声称,虽然 NorthPole 无法用来承载 GPT-4,但应该可满足许多企业所需的模型推论要求。

目前 IBM Research 仍在研究 NorthPole 的适用领域,研究人员许多需要即时处理大量资料的边缘计算可能非常适合 NorthPole,例如自动驾驶、遥感通信等领域,NorthPole 均有用武之地。

冯·诺依曼瓶颈

有些计算机芯片可以高效地处理这些计算,但每次计算一层时,它们仍需要使用称为 RAM 的外部存储器。这种在芯片间穿梭数据的方式会减慢速度--这种现象被称为冯-诺依曼瓶颈(Von Neumann bottleneck),其名称源自数学家约翰-冯-诺依曼(John von Neumann)。

冯-诺依曼瓶颈是导致计算机应用(包括人工智能)速度减慢的最重要因素之一。它还导致能源效率低下。Modha表示,他曾经估计,在这种架构上模拟人脑可能需要相当于 12 个核反应堆的输出。


  1. EETOP 官方微信

  2. 创芯大讲堂 在线教育

  3. 创芯老字号 半导体快讯

相关文章

全部评论

@2003-2023 EETOP
×