最终决战!人工智能战队OpenAI将战Dota2人类最强战队( 五 )

通过自我对抗学习 , OpenAIFive每天相当于玩180年的游戏 。 训练上 , 它使用256块GPU、12万8000个CPU核心使用近端策略优化(ProximalPolicyOptimization)方法进行训练 。 当每个英雄使用单独的一个LSTM , 模型就可以在没有人类数据的情况下学到可识别的策略 。 这表明强化学习即使没有根本性的进步 , 也能够产生大规模但也可接受的长期规划 。 这出乎了OpenAI研究人员起先的预料 。

为了训练每个英雄 , OpenAI使用了两种机器学习技术:长短期记忆网络(LSTM)和近端策略优化(ProximalPolicyOptimization) 。

为什么使用LSTM其实很好理解:打Dota2需要长期策略 , 敌方英雄的每一个当前行为都会对之后的行为产生影响 。 LSTM是一种循环神经网络(RNN) , 它比普通的RNN更适合于处理和预测时间序列中间隔和延迟非常长的重要事件 。 LSTM有一个叫做Cell的元素 , 能够分辨出输入的信息是否有用 , 是否需要记住 。

每一个bot的神经网络包含一个单层的、拥有1024单位的LSTM , 观察游戏的局势然后做出相应的行为 。 下图这个互动演示就是可以让你理解每个bot是如何做出指令的 , 这些画面就是Dota2的API所观察到的 。

最终决战!人工智能战队OpenAI将战Dota2人类最强战队

----最终决战!人工智能战队OpenAI将战Dota2人类最强战队//----江苏龙网 http://www.jiangsulong.com //

本文原始标题为:最终决战!人工智能战队OpenAI将战Dota2人类最强战队---来源是:

本文原始标题为:最终决战!人工智能战队OpenAI将战Dota2人类最强战队---来源是:


推荐阅读