Arm发布5nm新架构：Cortex-A78和Cortex-X1，功耗暴降50%、性能提升30%

2020-05-27 12:56:00 EETOP 作者：易建芯

点击关注->创芯网公众号，后台告知EETOP论坛用户名，奖励200信元

arm 昨天推出了Cortex-A78和Cortex-X1 cpu 架构，2021年的移动设备将会搭载。

Cortex-A78是Cortex-A系列的迭代产品，Cortex-X1是一款新的高性能CPU。

据介绍，Arm的Cortex-A78和Cortex-X1都是基于上一代Cortex-A77，但这两款Arm处理器的设计目标不同，Cortex-A78侧重于提供更高的每瓦性能，同时体积更小，而Cortex-X1则是追求最大性能。

两款处理器都有望在2021年用于顶级SoC和智能手机，甚至可能彼此结合使用。

Arm Cortex-A78：效率至上

根据官方的介绍，Cortex-A78主频达到了3GHz，每核每瓦性能相比上代提升了20%，在同样的性能下，Cortex-A78的能耗相比上代降低了50%。另外，A78的面积也小了5%，为四核集群节省了15%的面积，这为额外的GPU、NPU和其他组件腾出了更多的空间。

Cortex-A78架构并没有盲目追求性能提升，更注重性能、功耗、面积，也就是PPA的均衡。Cortex-A78通过更保守的性能改进来优化功率和面积。ARM把更高性能提升用于Cortex-X1架构。

而Cortex-A78根据ARM的说法，Cortex-A78的架构性能（也就是IPC）只提升了7%，功耗降低了4%，内核小了5%，四核簇面积的缩小了15%。

根据ARM的说法，在同样的每核心1W功耗下，7nm生产的Cortex-A77可以达到2.6GHz，而5nm生产的Cortex-A78频率可达3.0GHz，同功耗下持续性能提升20%左右。

能耗方面，在相同的性能下，5nm工艺生产的2.1GHz Cortex-A78功耗比7nm工艺2.3GHz的Cortex-A77降低了50%，有助于提高5G手机的续航。

谈到微体系结构，Arm进行了许多重大更改。首先，Cortex-A78带有可选的较小的32kB L1缓存配置，这可以节省大部分芯片空间。尽管Arm的合作伙伴仍然可以选择更熟悉的64kB L1缓存来进一步提高内核的性能。高通公司为其Snapdragon Prime内核在较大的L2缓存中做了类似的事情，并且在高达512kB的容量中仍保持了灵活性，以平衡这一代产品的性能，面积和功率。

为了抵消这种较小的L1内存，分支预测器可以更好地覆盖不规则搜索模式，并且现在能够在每个周期跟踪两个已取分支。这样可以减少L1高速缓存未命中的次数。与A77相比，流水线要长1个周期，从而确保A78达到3 GHz左右的时钟频率目标，但每个周期设计仍然是6条指令。

Arm还在执行单元中引入了第二个整数倍数单元，并引入了一个额外的加载地址生成单元（AGU），以将数据加载带宽增加50％。其他优化包括更多融合的指令以及指令调度程序的效率改进，寄存器重命名结构和重排序缓冲区。最重要的是，Cortex-A78是比A77更精简，更优化的CPU。

Cortex-A78的目标是达到效率的峰值效率。这对于电池续航时间非常有用，但对于希望Android能够在明年与苹果缩小差距的发烧友而言却并非如此。为此，这就需要Arm的高性能架构Cortex-X1了。

Cortex-A78主要面向2021年的智能手机等产品，不过考虑到之前的情况，2021年很难普及Cortex-A78，ARM也没提到有哪些公司现在应用了这个架构。

ArmCortex-X1：终极性能

Cortex-X1是Arm“CXC项目”的第一款商用产品。性能方面，Cortex-X1将比Cortex-A77提高30%，与Cortex-A78相比，Cortex-X1的的整数运算性能提升了23%，Cortex-X1还拥有两倍于Cortex-A78的机器学习能力。要实现Cortex-X1的目标性能，需要进行许多重大的微体系结构更改。Cortex-X1的内核比A77和A78要大得多，L2缓存的最大容量为1MB，带宽是原来的两倍，可以最大限度地提高性能，而共享的L3缓存可以达到8MB，是前几代缓存的两倍。有趣的是，Cortex-X1随附了一个特定的动态共享单元（DSU），以支持8MB配置，该配置也与集群中的所有Cortex-A78共享该内存。

Cortex-X1在结构设计上与Cortex-A78如出一辙，但几乎在每个地方都进行了扩展。

前端解码部分从4端口增加到了5端口，宏指令缓存直接加倍，达到3000条，甚至超过Intel的Sunny Cove（2250条），但少于Zen 2（4000条）。乱序重排缓冲区（ROB）的大小也是扩充到224条，与Zen 2和Skylake持平。

执行部分中变化最大的是FP单元，也就是ARM特有的NEON浮点引擎，Cortex-X1上面直接将FP单元的数量倍增，达到4x128B的规模，宽度上基本等同于目前的桌面x86处理器，不过ARM目前的指令集并不允许单个长度大于128B的向量，在吞吐上肯定是不如桌面端处理器的。

缓存部分也发生了较大的变化，除了同步Cortex-A78增加的一个Load AGU外，ARM允许Cortex-X1的二级缓存加倍，增加到1MB之多，同时L2 TLB较Cortex-A78翻倍，可覆盖8MB的L3缓存。

Cortex-X1很像Cortex-A78，两者共享了不少设计改进，但Cortex-X1明显是冲着高性能去的，它很宽，有着更高的计算吞吐量。官方数据显示它相比Cortex-A77在峰值性能上有30%的提升，是相当巨大的。

在产品层面，智能手机的SoC似乎不太可能使用四Cortex-X1集群，单Cortex-X1与三个Cortex-A78将是不错的选择。这样的配置只比四核Cortex-A76集群多占用15%的空间，但提供了更高的单核性能。

预计未来的SoC产品会选择1核X1、3核A78和4核A55的搭配，从而实现更好的的性能与能效的平衡。未来Windows on Arm产品则有可能会搭载多核Cortex-X1的SoC，从而大幅提升性能。

关键词： Arm A78 Cortex-X1

EETOP 官方微信
创芯大讲堂在线教育
半导体创芯网快讯

上一篇：研究人员在Android 9.0等低版本系统中
下一篇：Intel拍胸脯：DDR5、PCIe 5.0明年见！

全部评论

最新资讯

最热资讯