AI科技大本营|Gary Marcus:因果熵理论的荒诞和认知科学带给AI的11个启示 | 文末赠书( 五 )


神经科学则描绘出一幅更为复杂的图景 。 为进行任何一种计算 , 大脑中成百上千个不同区域以不同的模式联合在一起 , 每个区域都有自己独特的功能:“平时人们只调用大脑的 10 %”这样的说法是不正确的 。 事实情况是 , 大脑活动需要消耗巨大的新陈代谢成本 , 因此我们几乎不可能同时调用整个大脑 。 我们所做的每件事都需要调用大脑资源中的不同子集 , 在任一给定时 刻 , 总有一些大脑区域是空闲的 , 而另一些是活跃的 。 枕叶皮层在视觉方 面很活跃 , 小脑在运动协调方面很活跃 , 以此类推 。 大脑是一个高度结构化 的装置 , 而我们的大部分智力能力源自在正确的时间调用了正确的神经工 具 。 我们可以预期 , 真正的人工智能很可能也是高度结构化的 , 在应对给定 的认知挑战时 , 其大部分能力也将源自在正确的时间以正确的方式对这种结 构进行利用 。
具有讽刺意味的是 , 当前的趋势与这样的愿景几乎完全相反 。 现在的机器学习界偏向于利用尽可能少的内部结构形成单一同质机制的端到端模型 。 英伟达 2016 年推出的驾驶模型就是一个例子 , 该模式摒弃了感知、预测和决策等经典的模块划分 , 而是使用了单一的、相对统一的神经网络 , 避开了通常情况下的内部工作分工 , 偏重于学习在输入(像素)和一组输出(转向和加速的指令)之间的更为直接的关联 。 这类系统的支持者 , 指出了“联 合”训练整个系统相较于分别训练一堆模块(感知、预测等)的优势 。
在某种程度上 , 这样的系统从概念上来看更简单 , 用不着为感知、预测等分别设计单独的算法 。 而且 , 初看起来 , 该模型大体上效果还算理想 , 有一部令人印象深刻的视频似乎也证明了这一点 。 那么 , 既然用一个庞大的网络和正确的训练集就能简单易行地达到目标 , 为什么还要将感知、决策和预测视为其中的独立模块 , 然后费心费力地建立混合系统呢?
问题就在于 , 这样的系统几乎不具备所需的灵活性 。 英伟达的系统一次可以正常工作好几个小时 , 无须人类司机太多的干预 , 但无法像 Waymo 的模块化系统那样正常工作数千个小时 。 Waymo 的系统可以从 A 点导航到 B 点 , 途中对诸如更换行车道之类的事情进行处理 , 但英伟达的系统只能始终走在一条车道上 , 虽说走直道的能力很重要 , 但这只是驾驶过程中的一小部分而已 。 (此类端到端系统也更难调试 , 我们稍后将对此进行讨论 。 )
在关键的应用场景中 , 最优秀的 AI 研究人员致力于解决复杂问题时 , 常常会使用混合系统 , 我们预期 , 这样的情况在未来会越来越多 。 举例来说 , DeepMind 能够在某种程度上避开混合系统来解决雅达利游戏的问题 , 从像素到游戏分数再到操纵杆都进行端到端训练 , 却不能用类似的方法来下围棋 , 因为围棋在许多方面都比 20 世纪七八十年代的低分辨率雅达利游戏 更为复杂 。比如 , 围棋中有更多可能存在的棋局 , 每一步行动都可能带来更复杂的结果 。 纯端到端系统 , 再见啦;混合系统 , 你好啊 。
在围棋中获得胜利需要将深度学习和蒙特卡罗树搜索(Monte Carlo TreeSearch)两种理念融合为一体 。 蒙特卡罗树搜索是从包含棋局各种可能的树形分支中抽取可能性的技术 。 蒙特卡罗树搜索本身也是两种思想的混合体 , 而这两种思想都可以追溯到 20 世纪 50 年代:游戏树搜索是一种教科书式的人工智能技术 , 用以预测玩家未来可能采取的行动;蒙特卡罗搜索则是运行多个随机模拟并统计结果的常见方法 。 无论是深度学习还是蒙特卡罗树搜索 , 哪个技术单独拿出来用都不可能造就世界围棋冠军 。 从中我们发现 , AI 和大脑一样 , 必须要有结构 , 利用不同的工具来解决复杂问题的不同方面 。
即便是看似简单的认知 , 有时也需要多种工具
人们发现 , 即使在极为精细的颗粒尺度上 , 认知机制往往也并非单一机制 , 而是由许多机制组成的 。


推荐阅读