沈向洋:从深度学习到深度理解( 二 )


沈向洋:从深度学习到深度理解
本文插图
计算机架构也产生了许多进步 , 尤其是越来越多的人正在思考是否有一个以“神经计算”命名的新范式 , 此范式区别于传统的冯诺依曼架构 , 也可能颠覆传统 。 虽然非常激动人心 , 但是真正实用的系统不是很多 。
沈向洋:从深度学习到深度理解
本文插图
GPU和TPU的性能在近几年不断上升 , 如上图所示 , 2016年的 NVIdia Pascal 只有10 TFLOPS , 而在2017 , 英伟达开发的 NVidia Volta 已经上升为120 TFLOPS了 , 2018年谷歌第二代四核TPU达到了180 TFLOPS , 2019年谷歌开发的第三代TPU比第二代“快”了 两倍还多 。
沈向洋:从深度学习到深度理解
本文插图
CPU的“规格”也在发生变化 , 2010年~2015年期间 , CPU从“大盒子”慢慢转变为“小盒子” , 目的是为了能构建更大的模型 , 处理更多的数据 , 以及加强团队合作 。 但是 , 从2015年开始 , 一个GPU小盒子已经满足不了需求了 , “GPU的小盒子”慢慢又转向“GPU/TPU大盒子”了 。
从算法到计算结构都产生了许多进步 , 深度学习也已经解决了很多实际问题 , 那么我们真的获得了智能么?现实是 , 我们并没有真正从这些海量的数据和海量的计算中获得太多的智能 。
深度学习本质上还是一个黑箱 , 我们不知道到底发生了什么 , 也无法解读很多现象 。 例如下面这个例子 。
沈向洋:从深度学习到深度理解
本文插图
用已经训练好的神经网络检测图片中的动物是狼还是哈士奇 。 在下面6张照片中 , 只有左下角的一张被识别错了 。
这个模型5/6的准确率非常高对吧?那么我应该高兴么?不确定 , 这取决于你想要什么 。 如果认为是一只哈士奇 , 却把狼带回家 , 那麻烦就大了 。
让我们看看模型到底发生了什么 , 这个深度神经网络到底是通过观察图像中的哪些区域来分辨是狼还是哈士奇的?AI并非像我们理解的那样通过动物的外形来辨别的 , 而是在观察图像中有没有雪 , 如果有雪 , 那就是狼 。
所以你以为你训练了一个非常强大的模型 , 实际上并非如此 , 这就是我一直在强调的:模型的可解释性十分重要 。
沈向洋:从深度学习到深度理解
本文插图
上面是计算机视觉的例子 。 同样 , 我们在自然语言处理领域中使用DNN也会出现问题 。 如上图所示 , 如果文字没有标蓝 , 那么DNN模型处理还是不错的 , 但是加上了“蓝色噪音”就意味着模型有了“对抗性攻击” , 处理结果完全达不到预期 。
再者 , 在情感分析中 , 如果对输入稍微改变一些 , 预测结果有可能从“负面情绪”转到“正面情绪” 。
沈向洋:从深度学习到深度理解
本文插图
再举一个GPT-2的例子 , 如上图所示 , 输入一句话 , 它会预测一句你想得到的话 。 例如 , 输入:两名士兵走进酒吧 。 GPT-2的输出是在Mosul酒吧 , 他们花光所有的钱用来买酒 。 嗯 , 似乎也能说得过去 。
但是 , 再看这句:昨天我把衣服送到干洗店 , 到现在还没有来取 。 我的衣服呢?GPT-2的回答是:在我妈妈的房子里 。
还有这句:木头上有六只青蛙 , 两只离开后 , 有三只加入 , 请问现在有几只?GPT-2:17只 。
显然 , 在问答和算术方面 , 自然语言处理还有很大的进步空间 。 因此 , 通过上面这些例子 , 我们可以得到一个结论 , 尽管在过去几十年里AI取得了令人难以置信的进步 , 但是在大数据利用方面的不合理 , 加上深度学习“魔术”般的效果 , 我们离真正的智能还有很长的路要走 。


推荐阅读