史上首次!谷歌AI玩家在星际争霸II中击败人类( 八 )

为了训练AlphaStar , DeepMind公司的研究人员使用了一种称为强化学习的方法 。 AI软件实体为了达到某些目标(如获胜或仅仅是活着) , 基本上是通过反复试验来玩这个游戏的 。 他们首先通过模仿人类玩家来学习 , 然后在游戏竞技比赛中互相学习 。 在不同的AI软件实体中 , 强者生存 , 弱者被抛弃 。 DeepMind估计 , 它的每一个AlphaStar软件实体都以这种方式积累了大约200年的游戏时间 , 随着游戏积累 , 它们玩游戏的速度也越来越快 。

DeepMind清楚地知晓其开展这项工作的目标 。 “最重要的是 , DeepMind的任务是构建一种通用的人工智能系统 。 ”AlphaStar项目的负责人奥里尔·维尼亚尔斯(Oriol Vinyals)说 , 他指的是建立一个能执行人类所能完成的任何心理任务的人工智能软件实体 。 “要做到这一点 , 重要的是要对我们的人工智能软件实体在各种任务中的表现进行测评对比 。 ”


推荐阅读