英伟达非唯一选择:苹果借助谷歌TPU成功训练大型模型!

2024-07-31 11:15:26 EETOP

苹果透露,它在开发最近发布的 Apple Intelligence 功能时并未使用 Nvidia 的硬件加速器。根据苹果官方的研究论文(machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf),苹果使用的是谷歌的 TPU 来处理训练数据,背后支持 Apple Intelligence 基础语言模型。


配备谷歌TPUv4和TPUv5芯片的系统在创建Apple Foundation Models(AFMs)过程中发挥了重要作用。这些模型,包括AFM-server和AFM-on-device模型,旨在为在线和离线Apple Intelligence功能提供支持,这些功能在 2024 年 6 月的全球开发者大会(WWDC)上得到了广泛宣传。

image.png

AFM-server 是苹果最大的 LLM,因此它仅在线使用。根据最近发布的研究论文,苹果的 AFM-server 在 8,192 个 TPUv4 芯片上训练,“分配为 8 × 1,024 芯片切片,这些切片通过数据中心网络(DCN)连接在一起。”预训练是一个三阶段过程,首先使用 6.3T 的 tokens,然后是 1T 的 tokens,最后通过 100B 的 tokens 进行上下文扩展。

苹果表示,用于训练其 AFMs 的数据包括从 Applebot 网络爬虫(遵循 robots.txt)收集的信息,以及各种经过授权的“高质量”数据集。它还利用了精心挑选的代码、数学和公共数据集。

当然,ARM-on-device 模型大幅缩减,但苹果认为其知识蒸馏技术已优化了这个较小模型的性能和效率。论文揭示,AFM-on-device 是一个 3B 参数模型,从 6.4B 的服务器模型中蒸馏而来,后者在完整的 6.3T tokens 上训练。

与AFM-server的训练不同,谷歌的TPUv5集群被用于准备ARM-on-device模型。论文透露,“AFM-on-device是在一个由2048个TPUv5p芯片组成的切片上进行训练的。”

有趣的是,苹果发布了如此详细的论文,揭示了Apple Intelligence背后的技术和工艺。这家公司并不以透明度高而闻名,但似乎在努力给人留下深刻印象,以展示其在人工智能方面的实力,这或许是因为它在这个领域的起步相对较晚。

根据苹果内部测试,AFM-server 和 AFM-on-device 在指令跟随、工具使用、写作等基准测试中表现出色。




关键词: 英伟达 TPU

  • EETOP 官方微信

  • 创芯大讲堂 在线教育

  • 创芯老字号 半导体快讯

  • 0

全部评论