最终决战！人工智能战队OpenAI将战Dota2人类最强战队( 五 ) 机器之心报道

通过自我对抗学习， OpenAIFive每天相当于玩180年的游戏。训练上，它使用256块GPU、12万8000个CPU核心使用近端策略优化（ProximalPolicyOptimization）方法进行训练。当每个英雄使用单独的一个LSTM ，模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步，也能够产生大规模但也可接受的长期规划。这出乎了OpenAI研究人员起先的预料。

为了训练每个英雄， OpenAI使用了两种机器学习技术：长短期记忆网络（LSTM）和近端策略优化（ProximalPolicyOptimization）。

为什么使用LSTM其实很好理解：打Dota2需要长期策略，敌方英雄的每一个当前行为都会对之后的行为产生影响。 LSTM是一种循环神经网络（RNN），它比普通的RNN更适合于处理和预测时间序列中间隔和延迟非常长的重要事件。 LSTM有一个叫做Cell的元素，能够分辨出输入的信息是否有用，是否需要记住。

每一个bot的神经网络包含一个单层的、拥有1024单位的LSTM ，观察游戏的局势然后做出相应的行为。下图这个互动演示就是可以让你理解每个bot是如何做出指令的，这些画面就是Dota2的API所观察到的。