通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类

DeepMind的一项研讨提出了MuZero算法 , 该算法在不具备任何底层动态知识的情形下 , 通过联合基于树的搜索和学得模型 , 在雅达利2600游戏中到达了SOTA表示 , 在国际象棋、日本将棋和围棋的准确计划义务中可以匹敌AlphaZero , 甚至超过了提前得知规矩的围棋版AlphaZero 。

通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类

文章插图
MuZero 算法在国际象棋、日本将棋、围棋和雅达利(Atari)游戏训练中的评估成果 。横坐标表现训练步骤数目 , 纵坐标表现 Elo评分 。黄色线代表 AlphaZero(在雅达利游戏中代表人类表示) , 蓝色线代表 MuZero 。
基于前向搜索的计划算法已经在 AI 范畴取得了很大的胜利 。在围棋、国际象棋、西洋跳棋、扑克等游戏中 , 人类世界冠军一次次被算法打败 。此外 , 计划算法也已经在物流、化学合成等诸多现实世界范畴中发生影响 。然而 , 这些计划算法都依附于环境的动态变更 , 如游戏规矩或准确的模仿器 , 导致它们在机器人学、工业掌握、智能助理等范畴中的运用受到限制 。
基于模型的强化学习旨在通过以下步骤解决这一问题:首先学习一个环境动态模型 , 然后依据所学模型进行计划 。一般来说 , 这些模型要么着眼于重建真实的环境状况 , 要么着眼于完全视察成果的序列 。然而 , 之前的研讨在视觉上丰硕的范畴还远远没有到达 SOTA 水准 , 如雅达利 2600 游戏 。
最受欢迎的办法是基于无模型强化学习的办法 , 即直接从智能体与环境的交互中估量优化策略和/或价值函数 。但在那些须要准确和庞杂前向搜索的范畴(如围棋、国际象棋) , 这种无模型的算法要远远落伍于 SOTA 。
研讨者在57个不同的雅达利游戏中评估了MuZero , 发明该模型在雅达利2600游戏中到达了SOTA表示 。此外 , 他们还在不给出游戏规矩的情形下 , 在国际象棋、日本将棋和围棋中对MuZero模型进行了评估 , 发明该模型可以匹敌AlphaZero超出人类的表示 。而且 , 在该试验中 , 其先辈AlphaZero提前获知了规矩 。
MuZero 算法概览
MuZero 基于 AlphaZero 壮大的搜索和基于搜索的策略迭代算法 , 但又将一个学习好的模型整合到了训练步骤中 。MuZero 还将 AlphaZero 扩大到了一个更加普遍的环境聚集 , 包括单个智能体域和中间时光步上的非零嘉奖 。
该算法的重要思路是预测那些与计划直接相干的未来行动(如下图 1 所示) 。模型将吸收到的视察成果(如围棋棋盘图像或雅达利游戏截图)作为输入 , 然后将其转换为一个隐蔽状况 。接下来 , 通过一个循环进程来迭代更新该隐蔽状况 , 该循环进程吸收前一个隐蔽状况和假设的下一步操作 。
在每一个步骤上 , 模型会预测策略(如玩的动作)、价值函数(如预测的赢家)以及即时嘉奖 。对模型进行端到端训练的唯一目的是精确估量这三个主要的量 , 以匹配改良的策略估量和通过搜索及视察到的嘉奖生成的值 。
对于隐蔽的状况 , 没有直接的束缚和请求来捕获重建原始视察成果所需的信息 , 大大减少了模型保护和预测的信息量;也没有请求隐蔽状况匹配环境中未知、真实的状况;更没有针对状况语义的其他束缚 。
相反 , 隐蔽状况能够地以任何与预测当前和未来值和策略相干的方法来表现状况 。直观地说 , 智能体可以在内部创立规矩和动态 , 以实现最准确的计划 。
通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类

文章插图
图 1:用一个训练好的模型进行计划、行为和训练 。(A)MuZero 应用其模型进行计划的方法;(B)MuZero 在环境中产生作用的方法;(C)MuZero 训练其模型的方法 。
通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类

文章插图
MuZero 算法详解
研讨者对 MuZero 算法进行了更详细的解读 。在每个时光步 t 上、以过往视察成果 O_1, , O_t 和未来行动 a_t+1, , a_t+k 为条件、通过一个具有参数 的模型 _  , 为每个 k=1 K 步进行预测 。该模型预测三种未来数目:策略
通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类

文章插图
 
【通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类】


推荐阅读