如何实现移动版GPT ?

2023-09-19 11:30:55 来源:EETOP编译

本文由EETOP编译整理自semiwiki

人们很容易认为,所有与 GPT 相关的东西都只是在追逐宣传热潮,而关于这个话题的文章,尤其是那些显然不可能实现的说法(就像这个案例一样),只不过是点击率很高的诱饵而已。事实上,在手机等边缘设备上托管至少一个子集的大型语言模型(LLM)是有实际原因的,尤其是在大大改进自然语言处理方面。与此同时,这些模型通常与大型云平台相关联,其庞大的规模给任何将 LLM 移至边缘设备的尝试带来了挑战。向移动 GPT 过渡需要一些重大创新。

image.png

为什么值得努力开发移动版GPT?

当Siri和类似的功能首次出现时,我们非常着迷,起初。与机器对话并让它理解我们似乎就像是科幻成为现实。然而,这个幻想开始破灭,因为我们开始意识到它们的“理解”非常浅显,我们被迫生气地反复重复请求的各种变体,希望AI最终能理解正确。短语级别的识别(而不是词级别)在某种程度上有所帮助,但仍然无法应对自然语言的灵活性。作为用户,如果您事先知道训练短语,您的问题可能会更有效,而不是询问一个自然的问题。这几乎达不到自然语言处理的水平。

大型语言模型(LLMs)已经通过强大的力量在有效理解自然语言请求方面取得了很大成功。它们通过全球数据集进行学习,并使用基于自注意力算法的变换器方法进行学习,识别自然语言中的常见模式,无视关键词的接近性或预定的短语结构。通过这种方式,它们可以从自然语言请求中提取和重新表达意图,或者提出一些意图的建议改进,这更类似于自然语言处理,而且可以独立于从互联网检索事实参考的能力而存在价值。但它仍然在云端运行。

实现移动版GPT有哪些方法?

功能更强大的智能音箱会在基本语音拾取(语音识别、标记化)之外进行一些本地处理,然后将真正的理解问题传回云端。有提议称,可以从手机中采用类似的混合方法来提升NLP质量。但这种方法存在常见的缺点,即延迟和隐私问题。更理想的做法是将计算保留在边缘设备上,尽量减少云端的依赖。

我们是否真的需要像在云端使用相同规模庞大的模型?GPT-4拥有大约一万亿个参数,无法容纳在移动应用程序中,这是完全不可行的。在2021年,Google DeepMind发布了一个重大突破,他们的“检索增强变换器”(Retro)不再将事实存储在模型中,而是认识到这些事实可以直接从纯文本数据或搜索中检索,而不是从模型权重中检索(当然,要有效地执行这一点还有一些细节需要考虑)。单单这个变化就可以将模型的大小减小到原始大小的几个百分点,虽然离适合手持设备还有一段距离,但已经变得更加紧凑。

更进一步的缩减需要剪枝和量化。在将经过训练的CNN或其他模型映射到边缘设备时,量化已经是众所周知的方法。在量化过程中,你有选择地将浮点权重替换为固定点,可以减小到8位、4位甚至2位,同时不断检查结果的准确性,以确保没有过分削减。此外,结合了压缩和解压缩,量化越精细,模型就越小,推理速度也更快,功耗更低,因为DDR活动可以减少。剪枝是一个步骤,通过测试对结果的敏感性,有选择地将权重替换为零。对于许多NLP模型,模型权重的很大一部分实际上并不那么重要。通过有效的稀疏处理器,这种剪枝可以进一步减小有效大小,并提高性能。这些技术可以提供多大的改进取决于AI平台的具体情况。

CEVA NeuPro-M用于移动版GPT:

NeuPro-M NPU IP是一系列专为嵌入式应用设计的AI处理引擎。用于将模型映射到这些引擎的预处理软件可以将有效模型大小减小多达20:1,包括Retro压缩后的总LLM大小约为十亿参数,这在现代边缘AI引擎(如NeuPro-M IP)的容量范围内,非常适合。

NeuPro-M核心的配置包括从1到8个并行引擎。每个引擎都提供一组加速器,包括用于优化无结构稀疏性的真实稀疏模块、用于注意力或softmax计算的神经乘法器以及用于处理应用程序可能需要的任何特殊目的定制的向量处理单元。

这些核心共享一个公共的L2内存,并且可以并行运行数据流,以获得更高的吞吐量,尤其是为了并行化耗时的softmax规范化计算和注意力步骤,有效消除了通常由规范化引起的延迟开销。NeuPro-M的性能范围从每个核心的4 TOPS到256 TOPS,可以提供超过1200 TOPS的性能。

如果我们想要替代Siri和类似的基于语音的应用程序,我们需要添加语音识别和文本到语音的功能,以实现完全以语音为中心的界面。CEVA已经在WhisPro中实现了语音接收,输入时的语音识别和输出时的文本到语音可以由NeuPro-M上运行的小型变换器处理。因此,您可以在这个平台上构建一个完整的基于语音的管道,从语音输入到识别和智能响应,再到语音输出。

如果您真的希望手机能够根据语音提示撰写关于复杂主题的详细论文,它可能仍然需要访问互联网,以从中检索事实数据,然后生成那篇文章。在许多情况下(查找餐馆、找电视上的电影、告诉我奥斯汀的天气),更现实的情况可能只需要访问互联网来获取最后一部分数据,不再需要这一步骤来准确理解您的问题。这确实太酷了。


  1. EETOP 官方微信

  2. 创芯大讲堂 在线教育

  3. 创芯老字号 半导体快讯

相关文章

全部评论

  • 最新资讯
  • 最热资讯
@2003-2024 EETOP