沈向洋：从深度学习到深度理解( 三 )

2
从深度学习到深度理解
我们必须认真思考智能的真正含义是什么，这也是我今天真正想表达的。如果把人工智能进行分类，可以分为弱人工智能和强人工智能。

本文插图
其中，弱人工智能对应的是深度学习，围绕单一任务点，需要大量数据做支撑，有时候不那么可靠，可移植性差/移植过后需要大量重新训练。正如上面GPT-2中的那些例子，深度学习支撑的“智能”在转移和泛化方面差了不少。
强人工智能（robust AI）对应深度理解，强调系统化地解决宽泛的问题，具备灵活与动态的推理能力，可以很好地移植到不同场景。显然，我们当前需要的是强人工智能。毕竟，我们想要综合各种来源的知识，期望AI能够对世界上正在发生的事情进行推理。就像人类一样，能够在一种语境中学习，在另一种语境中应用。
那么，近期有没有从深度学习转向深度理解的机会？在我看来，当前一些机器学习的结果对于每一个任务来说，已经不只是“分类器” ，而是robust AI 智能体。例如它可以通过实践继续学习技能和知识（强化学习），以及探索示例（无监督学习）。这类智能体的特点是用比较少的学习次数，就能解决非常新的任务。
事实上，我最近思考robust AI的时候，对三个方面比较感兴趣，感觉这三个方面在实现robust AI时大有可为：
其一，构建大规模的强机器学习仿真器。不仅是游戏，还有自动驾驶等复杂系统。
其二，对于机器学习本质的深度理解。从优化功能开始，思考我们从里面真正学到的是什么。
其三，基于神经与符号的混合模型（Hybrid Neural/Symbolic Model for Robust AI）。

本文插图
前两个不是今天的重点，我会介绍基于神经与符号的混合模型。最近，雷蒙德微软研究院写了一篇论文，题目为《SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trainedAuto-regressive Model》，文章中提出了一种新的方法，能够利用迁移学习进行高效地大规模构建面向任务的对话系统。
在我看来，这篇文章有两个亮点，其一是有个预训练模型GTG（Grounded Text generator），其二是该方法实现了真正的会话学习。下面我主要讲讲GTG 。

本文插图
如上图所示，是一个多领域对话任务的示意，其结果经过微调GTG产生。在对话的一开始，人类就要求推荐一个博物馆；机器紧接着根据景点搜索、位置等信息给出了建议。随后，人类又要求在相同的位置进行预订餐馆，并要求餐馆里有印度食物。机器根据 same area 推断出了人类所要求的位置在“小镇中心” ，显示出了很强的推理能力。

本文插图
那么，这里面发生了什么呢？先看看经典的模块化对话系统架构，一般包括四个关键模块：