人工智能算法教机器人学走路耗时两小时学会( 二 ) 2018年12月

　　在人工智能领域中经常提到“强化学习”的概念，这是一种使用奖励或惩罚的驱动来实现特定目标的人工智能方法，目的是获得一个策略以指导行动。比如围棋博弈中，这个策略可以根据盘面形势指导每一步应该在哪里落子。而在四足机器人Minitaur学习走路的过程中，这个策略可以根据地形等要素告诉机器人下一步应该怎么走。

　　强化学习会从一个初始的策略开始。通常，初始策略不一定很理想，正如四足机器人Minitaur在刚开始学走路的时候所表现的那样。不过。在学习的过程中，作为决策主体的四足机器人Minitaur会通过行动和环境进行交互，不断获得反馈，即回报或者惩罚，并根据反馈调整优化策略。

　　强化学习是一种非常强大的学习方式。持续不断的强化学习甚至能够获得比人类更优的决策机制。最好的例子就是阿尔法狗。2016年，谷歌通过深度学习训练的阿尔法狗（ AlphaGo）程序以4比1的比分战胜了曾经的围棋世界冠军李世石。它的改进版更在2017年战胜了当时世界排名第一的中国棋手柯洁，其令世人震惊的博弈能力就是通过强化学习训练出来的。

　　但强化学习也有其局限性。它需要大量数据，在某些情况下需要数万个样本才能获得良好的结果。这就需要四足机器人Minitaur像阿尔法狗那样进行多次训练，但过多的训练可能会对四足机器人造成损坏。

　　因此，这项“学习走路”的研究选择了强化学习的“升级版”——深度强化学习的方法，将深度学习的感知能力和强化学习的决策能力相结合。这种方法可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。

　　用研究人员的话说，为了“使一个系统在没有模拟训练的情况下学习运动技能成为可能”，他们采用了一种名为“最大熵RL”强化学习框架。最大熵RL可以优化学习策略，以最大化预期收益。在这个框架中，人工智能代理通过从策略中抽取某些行动并接收奖励的方式不断地寻找最佳的行动路径。

　　研究人员表示，“据我们所知，本实验是在现实世界中不经过模仿和预训练而直接学习欠驱动四足运动的第一个深度强化学习算法案例。”

　　2018年5月，同个课题组的研究人员曾在arXiv.org上发表了另一篇关于四足机器人Minitaur的研究论文。当时，研究人员使用深度强化学习的方法使Minitaur从零开始学习四足运动，并最终实现了小跑和疾驰。