谷歌大脑专家详解：深度学习可以促成哪些产品突破？

2016-11-01 20:59:40 来源：n

有人最近在社交问答网站Quora上提出了这样一个问题：深度学习可以促成哪些产品突破？谷歌(微博)大脑团队工程师埃里克·蒋（Eric Jang）专门撰文给出了详细的回答。

以下为原文内容：

深度学习指的组成下列内容的一类机器学习技术：

——大神经网络（拥有数百万个自由参数）

——高性能计算（采用成千上万个处理器并行计算）

——大数据（例如，数百万的彩色图片或象棋档案）

深度学习技术目前已经在很多领域实现了最尖端的水平（视觉、音频、机器人、自然语言处理……暂举几例）。深度学习最近的进步还融合了来自统计学习、强化学习和数值优化等领域的内容。

以下是当今的深度学习技术有可能促成的一些产品（顺序不分先后）：定制数据压缩、压缩传感、数据驱动型传感器校准、离线人工智能、人机互动、游戏、艺术助理、非结构化数据挖掘、语音合成。

定制数据压缩

假设你在设计一款视频会议应用，希望增加一套有损编码方案，以便减少通过互联网发送的数据包。你可以使用H.264等现成的编解码器，但H.264并非最优方案，因为它是针对普通视频设计的——从猫咪视频到故事片，再到风光片。

如果能有一套针对FaceTime视频设计的编解码器就好了，这样就能比一般算法节约更多数据，原因在于：多数时候，屏幕中央都有一张人脸。然而，设计这样的编码方案并非易事。如何确定人脸的位置？人脸上的眉毛有多宽？眼睛是什么颜色？下巴是什么形状？如果头发盖住了一只眼睛怎么办？如果图像上没有人脸或者有多个人脸怎么办？

这个时候，深度学习便可发挥作用。自动编码器是一种神经网络，它输出的数据只是输入数据的副本。如果不是自动编码器的隐藏层小于输入层，学习这种“恒等映射”（identity mapping）并没有太大意义。这种“信息瓶颈”会迫使自动编码器学习隐藏层里的数据的压缩表现，然后再借助网络中的剩余层解码原始形态。

通过端对端训练，自动编码器和其他深度学习技术可以适应你的数据特性。与主成分分析不同，这些编码和解码步骤并不限于仿射（线性）变换。主成分分析学习的是 “编码线性变换”，而自动编码器学习的则是“编码程序”。

这便大大加强了神经网络的力量，甚至可以实现复杂且有针对性的压缩：无论是在Facebook上存储海量自拍，还是加快YouTube视频流，抑或压缩科学数据和降低个人iTunes曲库占用的空间，都可以通过这种技术来实现。试想，你的iTunes曲库可能会学习一个“乡村音乐”自动编码器，为的就是压缩你的个人曲库。

压缩传感

压缩传感与有损压缩的解码部分密切相关。很多有趣的信号都有自己独特的结构——也就是说，信号的分布并非完全随意的。这意味着我们不必为了获得完美的信号重建而按照奈奎斯特极限进行取样，只要我们的解码算法能够正确地利用底层结构即可。

深度学习可以适用于这种情况，因为我们可以利用神经网络学习松散的结构，而不必借助手工特征工程的帮助。以下是一些产品应用方式：

——超分辨率算法（waifu2X），相当于《犯罪现场调查：迈阿密》里面的“加强”按钮。

——使用Wi-Fi无线电波干涉实现穿墙透视（麻省理工学院的Wi-Vi）。

——借助不完整的图像（例如2D图像或局部闭塞）来解析一个物体的3D结构。

——更加精确地重建来自声呐/激光雷达的数据。

数据驱动型传感器校准

优秀的传感器和测量装置往往要依靠价格昂贵的高精度元件。

以数码相机为例。数码相机会假设玻璃镜头是某种“精密的”几何图形。拍摄照片时，机载处理器会解开穿过镜头的光迁移方程，然后计算出最终的图像。

如果镜头被刮花，或者发生弯曲，甚至造型像兔子（而非圆盘），这些假设就会被打破，无法顺利成像。

还有一个例子：磁共振和脑电图目前的解码模型假设颅骨是完美的球形，以此来控制数学运算。但借助这种方式计算肿瘤位置时，有的时候会出现几毫米的偏差。更加精确的摄影和磁共振成像应该可以弥补几何形状上的偏差，无论这些偏差来自底层资源还是制造缺陷。

幸运的是，深度学习可以借助数据校准解码算法。

不必借助一刀切的解码模式（例如卡尔曼滤波器），而是可以针对每个病人或每台测量装置表达更加复杂的偏差。如果我们的相机镜头刮花了，便可训练解码软件对变化后的几何图形进行补偿。这意味着我们不必再生产和匹配超精准的传感器，从而节省大量资金。

在某些情况下，甚至可以彻底抛弃硬件，让解码算法进行补偿。哥伦比亚计算摄影实验室就开发了一种没有镜头的相机。这是一种由软件定义的成像方式。

离线人工智能

能够摆脱互联网来运行人工智能算法对需要降低延迟的应用（例如自动驾驶汽车和机器人），以及没有可靠上网连接的应用（智能手机上的旅行应用）都至关重要。

深度学习就很适合这种情况。训练阶段结束后，神经网络可以迅速进步。另外，还可以直接将大型神经网络分割成一个个小型神经网络，直到足以在智能手机上运行为止（但要牺牲一定的精确度）。