令人兴奋的IBM “人脑” AI 芯片

2023-10-30 12:19:45 EETOP

点击关注->创芯网公众号，后台告知EETOP论坛用户名，奖励200信元

IBM Research 日前推出 AI 芯片 NorthPole，该芯片灵感号称“来自人类大脑的运作”。NorthPole 芯片消除了频繁访问外部存储器的需要，因此比现有架构更快地执行图像识别等任务，同时消耗的电量大大减少。推论性能据称超越 4nm GPU，适用于边缘计算等范畴。

经过查询得知，NorthPole 芯片是 IBM 曾在 2014 年“模拟人脑运作”的 TrueNorth 芯片的后继者，芯片开发同样由 TrueNorth 芯片负责人 Dharmendra Modha 所主导。

据悉，在传统的半导体产业中，芯片主要遵循相同的基本架构，处理单元与储存信息是相互分开的，这种架构虽然简化了芯片设计模式，却也因传输速度赶不上处理速度而出现了“冯诺伊曼瓶颈（von Neumann Bottleneck）”，而 Dharmendra Modha 则认为，人脑是目前所知最节能的处理器，因而持续寻找以数字方式复制人脑的方法。

IBM 目前推出的 NorthPole 芯片，相对于传统芯片最大的不同点在于“芯片内置存储器”，在没有“冯诺伊曼瓶颈”的情况下，NorthPole 芯片的 AI 推论能力优于市面上竞品。

“它的能源效率令人惊叹，”巴黎萨克雷大学帕莱索分校的纳米电子学研究员达米安·奎利奥兹 (Damien Querlioz) 说道。他说，这项发表在Science 1上的研究表明，计算和内存可以大规模集成。“我觉得这篇论文将动摇计算机架构中的普遍思维。”

研究合著者、IBM 计算机工程师 Dharmendra Modha 表示，这些核心在一个网络中连接在一起，其灵感来自于人类大脑皮层各部分之间的白质连接。这一设计原则和其他设计原则（其中大部分以前就存在，但从未被整合到一个芯片中）使 NorthPole 在图像识别的标准基准测试中以大幅优势击败现有的人工智能机器。尽管没有使用最新、最小型化的制造工艺，但它使用的能量仅为最先进人工智能芯片的五分之一。作者估计，如果 NorthPole 设计采用最新的制造工艺，其效率将比当前设计提高 25 倍。

NorthPole 运行神经网络：简单计算单元的多层阵列，经过编程可识别数据模式。底层接收数据，例如图像中的像素；每个连续层都会检测复杂性不断增加的模式，并将信息传递到下一层。顶层产生一个输出，例如，可以表示图像包含猫、汽车或其他物体的可能性。

虽然 NorthPole 采用 12nm 工艺，于 800 平方毫米上安置了 220 亿个晶体管，拥有 256 个核心，于 8-bit 精度下每核心每个周期可执行 2048 次操作，若是在 4-bit 或 2-bit 精度下，操作次数则可翻倍。

搭载 NorthPole 的 PCIe 卡，图源 IBM

在具体架构上，NorthPole 号称模糊了运算与存储间的界线，这让 NorthPole 容易整合至系统，且明显减少了搭载芯片的设备负载。

IBM Research 在 ResNet-50 模型上测试 NorthPole，相较于同样基于 12nm 工艺的 GPU 竞品，NorthPole 每秒辨识帧数的能效是竞品的 25 倍，而且不管是在延迟或运算空间的要求上，表现都优于市面上所有主流架构，甚至凌驾基于 4nm 工艺的 GPU。

不过，NorthPole 的优势同时也是它的弱点所在，NorthPole 只能轻松读取集成在芯片中的本地数据信息，读取外界数据时，便没有计算速度优势。

Modha 声称，虽然 NorthPole 无法用来承载 GPT-4，但应该可满足许多企业所需的模型推论要求。

目前 IBM Research 仍在研究 NorthPole 的适用领域，研究人员许多需要即时处理大量资料的边缘计算可能非常适合 NorthPole，例如自动驾驶、遥感通信等领域，NorthPole 均有用武之地。

冯·诺依曼瓶颈

有些计算机芯片可以高效地处理这些计算，但每次计算一层时，它们仍需要使用称为 RAM 的外部存储器。这种在芯片间穿梭数据的方式会减慢速度--这种现象被称为冯-诺依曼瓶颈（Von Neumann bottleneck），其名称源自数学家约翰-冯-诺依曼（John von Neumann）。

冯-诺依曼瓶颈是导致计算机应用（包括人工智能）速度减慢的最重要因素之一。它还导致能源效率低下。Modha表示，他曾经估计，在这种架构上模拟人脑可能需要相当于 12 个核反应堆的输出。

关键词： IBM AI 芯片

EETOP 官方微信
创芯大讲堂在线教育
半导体创芯网快讯

全部评论

最新资讯

最热资讯