x

AI芯片的供电挑战

2025-06-20 11:16:28 EETOP
点击关注->创芯网公众号,后台告知EETOP论坛用户名,奖励200信元

随着人工智能AI)工作负载规模和复杂度的不断提升,为处理海量数据而开发的各种处理元件对功耗的需求达到了前所未有的水平。但如何高效且可靠地提供这种功耗,同时不降低信号完整性或引发热瓶颈问题,已成为半导体历史上最严峻的设计与制造挑战之一。

与通用处理器不同,专为 AI 工作负载设计的芯片将集成密度推向了极致。它们在更小的封装尺寸内封装了更多晶体管,同时通常以小芯片(chiplet)的形式增加晶体管总数。其结果是形成了更大、更密集的系统级封装(SiP),其中电源传输不仅成为一个电气问题,更演变为从单个小芯片到服务器机架的封装、材料和系统集成挑战。

新思科技(Synopsys)研究员戈德温・马本(Godwin Maben)表示:“动态功耗在很大程度上占主导地位,这主要由计算单元和内存之间的数据移动驱动。例如,英伟达(NVIDIA)的 Blackwell 功耗范围为 700 瓦至 1,400 瓦。这使得高效的总线架构和架构创新(如数据压缩策略)变得至关重要。”

由于内存和计算单元之间来回传输的数据量巨大,动态功耗占据主导地位。这些数据传输通过大规模内存层级结构进行,使用各种高速互连技术。但移动所有这些数据需要付出代价,形成从内存层级决策一直延伸到电源传输网络(PDN)的级联设计约束。

imec 研发副总裁朱利安・里凯(Julien Ryckaert)指出:“随着我们转向背面和 3D 堆叠,热量变得更加集中且更难消散。这种物理紧凑性加剧了电迁移和局部热热点等挑战。”

随着人工智能AI)工作负载规模和复杂度的不断提升,为处理海量数据而开发的各种处理元件对功耗的需求达到了前所未有的水平。但如何高效且可靠地提供这种功耗,同时不降低信号完整性或引发热瓶颈问题,已成为半导体历史上最严峻的设计与制造挑战之一。

与通用处理器不同,专为 AI 工作负载设计的芯片将集成密度推向了极致。它们在更小的封装尺寸内封装了更多晶体管,同时通常以芯片chiplet)的形式增加晶体管总数。其结果是形成了更大、更密集的系统级封装(SiP),其中电源传输不仅成为一个电气问题,更演变为从单个芯片到服务器机架的封装、材料和系统集成挑战。

新思科技(Synopsys)研究员戈德温・马本(Godwin Maben)表示:动态功耗在很大程度上占主导地位,这主要由计算单元和内存之间的数据移动驱动。例如,英伟达(NVIDIA)的 Blackwell 功耗范围为 700 瓦至 1,400 瓦。这使得高效的总线架构和架构创新(如数据压缩策略)变得至关重要。

由于内存和计算单元之间来回传输的数据量巨大,动态功耗占据主导地位。这些数据传输通过大规模内存层级结构进行,使用各种高速互连技术。但移动所有这些数据需要付出代价,形成从内存层级决策一直延伸到电源传输网络(PDN)的级联设计约束。

imec 研发副总裁朱利安・里凯(Julien Ryckaert)指出:随着我们转向背面和 3D 堆叠,热量变得更加集中且更难消散。这种物理紧凑性加剧了电迁移和局部热热点等挑战。

为了在这些功率水平下实现可管理的电源传输,多学科设计团队必须全面考虑电压调节的位置和方式、热量提取方法、材料在大电流应力下的行为,以及在电迁移和 IR 压降影响可靠性之前所具有的裕量。这些设计决策的复杂性要求电子设计自动化(EDA)工具、制造工艺和先进封装之间实现更紧密的耦合。

新思科技首席架构师杰伊・罗伊(Jay Roy)表示:如今,高性能计算和 AI 加速器已突破千瓦级功耗边界。设计复杂度的爆炸式增长和不断缩短的开发周期,对半导体系统级芯片SoC)设计构成了持续挑战。

这种在扩展性能的同时最小化功耗的推动,正迫使电源传输模型发生重大变革。这不再仅仅是降低电阻的问题,而是涉及对电感行为、热梯度以及不同膨胀系数材料之间的耦合进行建模。早期预测电压降、电流瓶颈和热热点现在至关重要,并且必须在实际布局和集成约束的背景下进行。

IC工程师技术盛会 研讨会报名通知

从功率到 AI 的全面芯片测试论坛

1.jpg

从横向到垂直电源传输

无论多少仿真都无法解决传统横向电源传输固有的局限性。在封装和印刷电路板(PCB)上横向路由大电流电源迹线会引入损耗和空间限制,这些限制已无法满足现代需求。当芯片功耗为 100 瓦或 200 瓦时,这种方法尚可使用,但如今已成为现代 AI 硬件的限制因素。

Saras Micro Devices 首席商务官埃尔科・伯格曼(Eelco Bergman)表示:当前的加速器卡通常采用横向电源传输架构,将数千安培的电流通过数厘米的 PCB 迹线从电源模块路由到处理器。由于大电流和迹线电阻,这种方法会导致显著的功率损耗和过度发热。此外,用于支持不断增加的总功率、电源轨数量以及关键高速信号路由的电路板空间有限。

在这些功率水平下,每一毫欧姆的电阻都会转化为必须消散的瓦特热量。此外,横向布线施加的空间限制通常会在电源完整性和信号完整性之间造成权衡。在高带宽系统中,数百个高速串行器 / 解串器(SerDes)通道与密集的电源层共享电路板空间,这些权衡变得难以承受。

 1:垂直电源传输网络,显示直接嵌入封装基板中的多域电容器模块。来源:Saras Micro Devices

为了克服这些限制,半导体行业正越来越多地探索垂直电源传输。通过将电源轨或稳压器直接嵌入芯片下方,并通过低阻抗路径垂直连接它们,从电源到硅片的距离大幅缩短。其结果是减少了 IR 压降和噪声,同时为关键信号释放了顶层布线空间。

伯格曼补充道:我们看到客户正在积极探索具有嵌入式电压调节和集成电容解决方案的垂直电源传输架构,这些解决方案可以实现电源传输的本地化。这些方法释放了顶层 PCB 空间,减少了寄生损耗,并提高了整体电源传输性能。

在基板和中介层内使用集成电源传输层,以及局部去耦,使 AI 芯片和加速器能够以更少的压降获得更清洁、更稳定的电源。先进基板(包括那些具有嵌入式无源器件的基板)现在正与硅片本身协同设计,以优化阻抗分布和散热性能。

与此同时,这些技术也带来了新的可靠性挑战。通过新材料和垂直结构传输大电流需要对电流拥挤、热循环和材料疲劳进行严格建模。嵌入式电源元件必须在承受强烈热通量的同时,与敏感信号层保持电隔离。这反过来又推动了介电材料、沉积技术和协同设计方法的创新。

先进封装与散热

高功率密度直接转化为热密度,这可能导致热热点,从而降低可靠性并减少性能。如果没有先进的散热技术,即使是效率最高的系统也需要进行热节流,这会大幅降低性能。

安靠(Amkor芯片和倒装芯片球栅阵列(FCBGA)业务部高级总监杰拉德・约翰(Gerard John)表示:如今的先进封装采用多尺度热管理技术来高效散热和排热。铟合金热界面材料(TIM)特别有效,因为其热导率约为 80 W/m-K。然而,铟 TIM 需要芯片背面和盖子底面进行金属化处理,通常使用 Ti/Au 或 Ni/Au 等材料。需要回流工艺来在芯片和盖子之间形成键合,这有助于降低界面电阻。

最小化芯片和散热器之间的热阻取决于材料和应用技术。均匀的 TIM 覆盖和低空洞处理对于实现芯片上一致的散热至关重要。传统的基于焊料的 TIM 正在被高性能金属合金、相变材料和新型碳基界面所取代或补充。

约翰指出:确保 TIM 应用中的空洞最小化至关重要。空洞会显著阻碍热传导,导致热热点和器件可靠性下降。监控 TIM 空洞在工艺优化和器件筛选中至关重要。

这些解决方案通常针对特定工作负载定制。例如,AI 训练比推理产生更长时间的持续功率突发,需要不同的热瞬态响应。封装工程师必须与系统架构师合作,确保散热解决方案与实际工作负载曲线相匹配。

约翰提到:“TIM 的选择通常基于器件功率图,该图指示高发热区域。通过将 TIM 特性与这些图相匹配,可以实现最佳热管理,确保器件上的高效散热。

在多芯片系统中,热挑战因热逻辑块的接近而放大。先进设计正转向蒸汽腔、微流体冷却和双面散热来管理这种复杂性。每种方法都带来了新的制造、可靠性和材料集成障碍,但它们正迅速成为实现大规模 AI 性能的必要工具。

IC工程师技术盛会 研讨会报名通知

从功率到 AI 的全面芯片测试论坛

钼与材料迁移

随着 AI 加速器对功率的需求增加和集成度的提高,传统的前端材料已显过时。钨和铜广泛用于局部互连和接触,因其导电性和可制造性而成为行业标准,但如今在芯片最密集的部分已产生限制。

这正是钼作为关键替代金属崭露头角的地方。与铜相比,钼的电子平均自由程更短;与钨相比,在窄几何尺寸下具有更好的可扩展性,因此在先进节点中,钼在电阻率和可制造性方面均提供了切实的改进。

泛林半导体Lam Research) corporate vice president 兼总经理凯汉・阿什蒂亚尼(Kaihan Ashtiani)表示:从传统钨金属化转向钼可带来显著的性能提升,包括接触电阻降低高达 50%。钼的电子平均自由程更短,使其在更小尺寸下表现更优,显著降低了紧密封装互连结构中的电阻问题。

实际上,这意味着钼在局部互连中特别有优势,因为现在线宽和间距已低于 20nm。在这些尺寸下,像钨这样的传统金属会因电子散射增加而受损,这会导致有效电阻率和热负载升高。相比之下,钼在受限几何尺寸中保持了良好的导电行为。

对于 AI 器件,这一特性至关重要。随着更多功能被封装在更少的平方毫米内,且垂直堆叠变得越来越普遍,热量和电阻日益局部化。像钼这样的材料创新有助于缓解这些影响,既通过改善电气性能,又通过简化集成到原子层沉积(ALD)和化学气相沉积(CVD)工艺中,这些工艺在领先的晶圆厂中已很常见。

阿什蒂亚尼表示:当互连尺寸缩小到低于铜等金属的平均自由程时,由于电子散射更频繁,电阻会增加。在这些情况下,像钼这样平均自由程更短的金属实际上变得更有利,因为它在更小尺寸下保持更低的电阻。

向钼的转变也与行业减少电迁移风险的更广泛努力一致。在 AI 工作负载常见的高电流密度下,金属迁移会随着时间的推移产生空洞和开路,这是对可靠性日益增长的担忧。钼的高熔点和晶粒稳定性有助于抵消这一点,使其成为长寿命 AI 计算应用的强大候选材料。

尽管尚未普及,但钼的采用正在加速,特别是在功率密度极高的应用中,如 GPU 矩阵引擎和 SRAM 阵列。它在包含背面电源传输的器件中也越来越受欢迎,其中金属化层的复杂性要求高度保形和低电阻率的材料。

背面电源传输

如今,芯片架构中最具变革性的转变或许是向背面电源传输网络(BSPDN)的迁移。背面电源传输网络不再通过顶部金属层同时路由电源和信号(它们在顶部金属层争夺空间),而是通过在晶圆底面引入电源连接来解耦这些功能。

最初的概念由英特尔Intel)首次公开称为 电源通孔,此后已演变为行业正在采用的更广泛的技术类别。本质上,晶圆的背面被蚀刻以暴露触点,然后这些触点用于直接向晶体管供电,绕过信号路由堆叠并显著提高效率。

imec 的里凯表示:背面电源传输始于蚀刻到硅中的电源通孔,以从背面提供直接电源访问,这有助于降低阻抗。从两侧处理晶圆为器件缩放和路由密度开辟了新机会,尽管由于去除硅作为散热器,这也带来了热挑战。

这种结构重组为 AI 芯片提供了几个关键优势。首先,通过分离电源和信号路由,工程师在布局规划和时序优化方面获得了更大的灵活性。信号层可以扩展或微调,而无需担心电源分配限制。其次,它实现了更薄、更均匀的电源网格,从而减少了 IR 压降并使电压调节更可预测。

里凯补充道:电源传输曾经是众多考虑因素之一,现在它塑造了整个布局规划。背面 PDN 有助于缓解路由拥塞并实现更高的晶体管密度,但它们也增加了功率密度,这使得热管理比以往任何时候都更加关键。

此外,背面处理为散热引入了新选项。由于硅衬底不再充当散热障碍,设计人员可以实施双面散热策略,在芯片的两侧应用热界面。

然而,背面电源传输并非没有挑战。它需要全新的工艺流程和材料进步,包括晶圆减薄、硅通孔(TSV)对齐、混合键合和处理极其脆弱的芯片。这些结构的机械可靠性仍在研究中,良率优化仍是大规模采用的障碍。

设计协同优化与系统级影响

尽管背面电源、钼互连和垂直 PDN 具有技术前景,但这些进步都不是孤立发生的。下一代 AI 芯片将需要跨设计栈的更紧密集成方法,即通常所说的系统技术协同优化(STCO)。

在这种模式下,硅架构师、封装工程师和系统设计师从最早的设计阶段开始协作。电源传输网络、热分布、机械应力和布局规划必须作为相互依赖的系统进行建模,而不是流程中的顺序步骤。

新思科技的马本表示:功耗感知协同设计变得越来越重要。它有助于平衡热性能与时序收敛,使客户能够在最终产品中实现更好的效率和可靠性。

在系统层面,这些优化具有广泛的影响。例如,热节流是 AI 芯片性能的最大威胁之一。如果没有对局部发热的有效预测和缓解,否则设计良好的系统在现场可能表现不佳。

新思科技的罗伊表示:上游电源传输效率的边际改进可以防止下游的热退化。目标是让工程师尽早了解这些系统如何相互作用,以便将可靠性内置其中,而不是事后添加。

这不仅对芯片有影响,系统集成商还必须考虑整个栈(芯片、中介层、基板和 PCB)的 PDN 阻抗。信号完整性、板级去耦和机箱级气流都会影响高效电源芯片在实际环境中的性能是否符合预期。

这些约束提升了协同仿真和跨域反馈回路的重要性。电压完整性和电磁干扰(EMI)现在与热仿真、材料建模和功耗感知验证直接交叉。作为回应,一些芯片制造商正在将封装和系统工程团队纳入内部,或将他们嵌入芯片设计团队中,以加快迭代并确保一致性。

除了技术协调外,经济激励也推动了协同优化。通过添加过量电容、更宽的电源平面或过度设计的电压调节器(VRM)来过度配置电源传输系统,会消耗本可用于计算的电路板面积和资源。

Saras 的伯格曼表示:降低 IR 压降和提高电源传输效率直接转化为更少的热量和更低的散热成本。这在超大规模数据中心中是直接的成本优势。

结论

随着 AI 需求的增长,优化每瓦特功耗以及交付每瓦特所花费的每一美元的压力只会加剧。这意味着电源传输不再是后端考虑因素,它已成为塑造 AI 芯片设计和制造的前沿约束。随着 AI 芯片进入千瓦级功耗领域,行业必须重新思考从材料到布局规划、从晶圆键合到散热的一切。背面电源传输网络、钼互连和垂直集成基板等创新只是开始。

AI 芯片电源传输的前进道路需要跨学科的深度协作。随着工程师面对下一代电源传输的多物理特性,围绕硅、封装和系统设计建立的孤岛正在瓦解。尽管这些解决方案的成本和复杂性很高,但回报(以性能、效率和可扩展性衡量)将是巨大的。

原文

https://semiengineering.com/power-delivery-challenges-for-ai-chips



为了在这些功率水平下实现可管理的电源传输,多学科设计团队必须全面考虑电压调节的位置和方式、热量提取方法、材料在大电流应力下的行为,以及在电迁移和 IR 压降影响可靠性之前所具有的裕量。这些设计决策的复杂性要求电子设计自动化(EDA)工具、制造工艺和先进封装之间实现更紧密的耦合。

新思科技首席架构师杰伊・罗伊(Jay Roy)表示:“如今,高性能计算和 AI 加速器已突破千瓦级功耗边界。设计复杂度的爆炸式增长和不断缩短的开发周期,对半导体系统级芯片(SoC)设计构成了持续挑战。”

这种在扩展性能的同时最小化功耗的推动,正迫使电源传输模型发生重大变革。这不再仅仅是降低电阻的问题,而是涉及对电感行为、热梯度以及不同膨胀系数材料之间的耦合进行建模。早期预测电压降、电流瓶颈和热热点现在至关重要,并且必须在实际布局和集成约束的背景下进行。


关键词: AI 芯片 半导体

  • EETOP 官方微信

  • 创芯大讲堂 在线教育

  • 半导体创芯网 快讯

全部评论