最终决战!人工智能战队OpenAI将战Dota2人类最强战队( 五 )
通过自我对抗学习 , OpenAIFive每天相当于玩180年的游戏 。 训练上 , 它使用256块GPU、12万8000个CPU核心使用近端策略优化(ProximalPolicyOptimization)方法进行训练 。 当每个英雄使用单独的一个LSTM , 模型就可以在没有人类数据的情况下学到可识别的策略 。 这表明强化学习即使没有根本性的进步 , 也能够产生大规模但也可接受的长期规划 。 这出乎了OpenAI研究人员起先的预料 。
为了训练每个英雄 , OpenAI使用了两种机器学习技术:长短期记忆网络(LSTM)和近端策略优化(ProximalPolicyOptimization) 。
为什么使用LSTM其实很好理解:打Dota2需要长期策略 , 敌方英雄的每一个当前行为都会对之后的行为产生影响 。 LSTM是一种循环神经网络(RNN) , 它比普通的RNN更适合于处理和预测时间序列中间隔和延迟非常长的重要事件 。 LSTM有一个叫做Cell的元素 , 能够分辨出输入的信息是否有用 , 是否需要记住 。
每一个bot的神经网络包含一个单层的、拥有1024单位的LSTM , 观察游戏的局势然后做出相应的行为 。 下图这个互动演示就是可以让你理解每个bot是如何做出指令的 , 这些画面就是Dota2的API所观察到的 。
----最终决战!人工智能战队OpenAI将战Dota2人类最强战队//----江苏龙网 http://www.jiangsulong.com //
本文原始标题为:最终决战!人工智能战队OpenAI将战Dota2人类最强战队---来源是:
本文原始标题为:最终决战!人工智能战队OpenAI将战Dota2人类最强战队---来源是:
推荐阅读
- 新型冠状肺炎|女歌手一再拒绝接种疫苗,最终如愿去世,是不幸还是“活该”
- 男神|男神们的最终归宿是演老头?
- 小沈阳|放弃小品和喜剧,告别演员的小沈阳,最终还是变成了笑话
- 张翰|网曝张翰新剧定档,化身人工智能师,女主令人惊喜
- 赵今麦|王力宏宣布退圈,50岁将重新出发,友人预言其最终可逢凶化吉
- 梁丽|著名演员梁丽:两度闪婚最终失败,如今54岁依旧单身
- 李诗情|不阻挡李诗情,最终白忙活,《开端》司机王德兴揣着明白装糊涂?
- 贝克汉姆|破防了!《勇敢的心2》欧阳公瑾牺牲,佟家儒最终还是没能救了他
- 预告片|《开端》发布新预告,老张警官被炸飞,三个细节指引最终结局
- 小姐姐|穿衣保暖才是最终归宿!冬天穿衣留不住温度和风度的,快来抄作业
