通用AlphaGo诞生？MuZero在多种棋类游戏中超越人类 _小知识

DeepMind的一项研讨提出了MuZero算法，该算法在不具备任何底层动态知识的情形下，通过联合基于树的搜索和学得模型，在雅达利2600游戏中到达了SOTA表示，在国际象棋、日本将棋和围棋的准确计划义务中可以匹敌AlphaZero ，甚至超过了提前得知规矩的围棋版AlphaZero 。

文章插图
MuZero 算法在国际象棋、日本将棋、围棋和雅达利（Atari）游戏训练中的评估成果。横坐标表现训练步骤数目，纵坐标表现 Elo评分。黄色线代表 AlphaZero（在雅达利游戏中代表人类表示），蓝色线代表 MuZero 。
基于前向搜索的计划算法已经在 AI 范畴取得了很大的胜利。在围棋、国际象棋、西洋跳棋、扑克等游戏中，人类世界冠军一次次被算法打败。此外，计划算法也已经在物流、化学合成等诸多现实世界范畴中发生影响。然而，这些计划算法都依附于环境的动态变更，如游戏规矩或准确的模仿器，导致它们在机器人学、工业掌握、智能助理等范畴中的运用受到限制。
基于模型的强化学习旨在通过以下步骤解决这一问题：首先学习一个环境动态模型，然后依据所学模型进行计划。一般来说，这些模型要么着眼于重建真实的环境状况，要么着眼于完全视察成果的序列。然而，之前的研讨在视觉上丰硕的范畴还远远没有到达 SOTA 水准，如雅达利 2600 游戏。
最受欢迎的办法是基于无模型强化学习的办法，即直接从智能体与环境的交互中估量优化策略和/或价值函数。但在那些须要准确和庞杂前向搜索的范畴（如围棋、国际象棋），这种无模型的算法要远远落伍于 SOTA 。
研讨者在57个不同的雅达利游戏中评估了MuZero ，发明该模型在雅达利2600游戏中到达了SOTA表示。此外，他们还在不给出游戏规矩的情形下，在国际象棋、日本将棋和围棋中对MuZero模型进行了评估，发明该模型可以匹敌AlphaZero超出人类的表示。而且，在该试验中，其先辈AlphaZero提前获知了规矩。
MuZero 算法概览
MuZero 基于 AlphaZero 壮大的搜索和基于搜索的策略迭代算法，但又将一个学习好的模型整合到了训练步骤中。MuZero 还将 AlphaZero 扩大到了一个更加普遍的环境聚集，包括单个智能体域和中间时光步上的非零嘉奖。
该算法的重要思路是预测那些与计划直接相干的未来行动（如下图 1 所示）。模型将吸收到的视察成果（如围棋棋盘图像或雅达利游戏截图）作为输入，然后将其转换为一个隐蔽状况。接下来，通过一个循环进程来迭代更新该隐蔽状况，该循环进程吸收前一个隐蔽状况和假设的下一步操作。
在每一个步骤上，模型会预测策略（如玩的动作）、价值函数（如预测的赢家）以及即时嘉奖。对模型进行端到端训练的唯一目的是精确估量这三个主要的量，以匹配改良的策略估量和通过搜索及视察到的嘉奖生成的值。
对于隐蔽的状况，没有直接的束缚和请求来捕获重建原始视察成果所需的信息，大大减少了模型保护和预测的信息量；也没有请求隐蔽状况匹配环境中未知、真实的状况；更没有针对状况语义的其他束缚。
相反，隐蔽状况能够地以任何与预测当前和未来值和策略相干的方法来表现状况。直观地说，智能体可以在内部创立规矩和动态，以实现最准确的计划。

文章插图
图 1：用一个训练好的模型进行计划、行为和训练。（A）MuZero 应用其模型进行计划的方法；（B）MuZero 在环境中产生作用的方法；（C）MuZero 训练其模型的方法。

文章插图
MuZero 算法详解
研讨者对 MuZero 算法进行了更详细的解读。在每个时光步 t 上、以过往视察成果 O_1, , O_t 和未来行动 a_t+1, , a_t+k 为条件、通过一个具有参数的模型 _ ，为每个 k=1 K 步进行预测。该模型预测三种未来数目：策略

文章插图

【通用AlphaGo诞生？MuZero在多种棋类游戏中超越人类】

上一页
1
2
下一页

推荐阅读

全警■长沙特警开展“全警实战大练兵”

趣闻晨报|家人绝望开记者会，他奇迹现身，英国80岁男登山失踪搜救无果

瑜珈有氧运动方法？

孙俪|40岁孙俪现身上海逛超市！穿衣打扮似小老太，身体虚弱走路不稳

西安一120救护车与小轿车相撞侧翻，八旬病人情况不容乐观

「民警」杭州姑娘崩溃：谈了半年，见过父母的男友竟然带着钱离奇消失

塑料门帘变黄怎么清洗，塑料门帘变黄了怎么清洗

|领导为什么看不上这几种员工？领导不会重用，希望你不是

嘻哈小甜甜|妄想山海：万年兽魄怎么获得？玩家单挑冰璃兽，一下就得到了6颗

我从乌鲁木齐出发打算去西安，敦煌，兰州三个地方，最后回到乌市，请问大家咋安排路线最划算啊

娱乐么么哒|日法各界悼念，KENZO创始人高田贤三感染新冠病逝

爱情原本的样子最低只要799，真是便宜又耐用，适合老人和学生的3款手机

扬子晚报|老人卧床行动不便民警上门帮他办理身份证

儿童补血口服液哪种好

合作|仁和药业募资8.34亿超三成投工业大麻项目合作环评机构却现“黑历史”

崇明区委组织部|崇明区东平镇：“四史”学习放心头初心使命担在肩

快看看！为什么有的人小脚趾甲是两瓣的？据说是山西人的后代？

游戏时光VGtime▲重制版》小彩蛋再次证明它与《最终幻想10》是同一世界，《最终幻想7

喝酒一瓶就晕是为什么,喝了两瓶酒就头晕-

养生每日快讯|前期准备要做好！，治疗手汗很重要

前世今生，带你了解AlphaGo的发展历程

陈小春|披荆斩棘2五公分组和歌单公布，三大阵营诞生，已获得5个成团席位

演员的诞生周一围夺冠,周一围是第几季的冠军-

张元英|两国人民都讨厌的爱豆诞生了！

通用劳动合同模板劳动合同样本

近亲结婚会诞生天才吗,近亲结婚生的孩子天才-

手表|李宁像日军军服：要把自己玩毁，鞋业“国货之光”诞生，99元吊打阿迪彪马

你知道烤冷面是怎么来的吗？烤冷面居然是这样诞生的

西游记石猴诞生情节,西游记第一回主要围绕石猴写了哪三个情节-

漫威|关于《力量之戒》第二季的一些猜想，魔戒诞生仍是最大悬念