AlphaGo原来是这样运行的,一文详解多智能体强化学习( 八 )
针对巨大状态空间的问题 , 使用网络结构 CNN 来提取和表示状态信息;
在训练的第一个阶段 , 使用人类玩家的数据进行有监督训练 , 得到预训练的网络;
在训练的第二个阶段 , 通过强化学习方法和自我博弈进一步更新网络;
在实际参与游戏时 , 结合价值网络(value network)和策略网络(policy network) , 使用 蒙特卡洛树搜索(MCTS)方法得到真正执行的动作 。
本文插图
图 11:AlphaGo 在 2016 年击败人类玩家 。 图源:https://rlss.inria.fr/files/2019/07/RLSS_Multiagent.pdf
实时战略游戏
MARL 的另一种重要的游戏应用领域 , 是实时战略游戏 , 包括星际争霸 , DOTA , 王者荣耀 , 吃鸡等 。 该类游戏相比于前面提到的国际象棋、围棋等回合制类型的游戏 , 游戏 AI 训练的难度更大 , 不仅因为游戏时长过长、对于未来预期回报的估计涉及到的步数更多 , 还包括了多方同时参与游戏时造成的复杂空间维度增大 , 在一些游戏设定中可能无法获取完整的信息以及全局的形势(比如在星际争霸中 , 不知道迷雾区域是否有敌方的军队) , 在考虑队内合作的同时也要考虑对外的竞争 。
OpenAI Five 是 OpenAI 团队针对 Dota 2 研发的一个游戏 AI [13] , 智能体的策略的学习没有使用人类玩家的数据、是从零开始的(learn from scratch) 。 考虑游戏中队内英雄的协作 , 基于每个英雄的分布式控制方式(即每个英雄都有各自的决策网络模型) , 在训练过程中 , 通过一个超参数 “team spirit” 对每个英雄加权、控制团队合作 , 并且使用基于团队整体行为的奖励机制来引导队内合作 。 考虑和其他团队的对抗 , 在训练过程中使用自我对抗的方式(也称为虚拟自我博弈 , fictitious self-play ,FSP)来提升策略应对复杂环境或者是复杂对抗形势的能力 。 这种自我对抗的训练方式 , 早在 2017 年 OpenAI 就基于 Dota2 进行了相关的研究和分析 , 并发现智能体能够自主地学习掌握到一些复杂的技能;应用在群体对抗中 , 能够提升团队策略整体对抗的能力 。
AlphaStar 是 OpenAI 团队另一个针对星际争霸 2(Starcraft II)研发的游戏 AI , 其中在处理多智能体博弈问题的时候 , 再次利用了 self-play 的思想并进一步改进 , 提出了一种联盟利用探索的学习方式(league exploiter discovery) 。 使用多类个体来建立一个联盟(league) , 这些个体包括主智能体(main agents)、主利用者(main exploiters)、联盟利用者(league exploiters)和历史玩家(past players)四类 。 这几类智能体的策略会被保存(相当于构建了一个策略池) , 在该联盟内各类智能体按照一定的匹配规则与策略池中的其他类智能体的策略进行对抗 , 能够利用之前学会的有效信息并且不断增强策略的能力 , 解决普通的自我博弈方法所带有的 “循环学习” 问题(“Chasing its tail”) 。
本文插图
图 12:联盟利用者探索(league exploiter discovery)的学习框架 。 图源:[14]
3.2. 多机器人避碰
在现实生活中 , 多机器人的应用场景主要是通过多个机器人的协作来提升系统的性能和效率 , 此时多智能体强化学习的关注重点主要在于机器人(智能体)之间的合作 。
在移动机器人方面 , 自主避障导航是底层应用的关键技术 , 近几年通过强化学习的方法来学习单机器人导航策略这方面的工作成果比较多;而当环境中存在多个移动机器人同时向各自目标点移动的时候 , 需要进一步考虑机器人之间的相互避碰问题 , 这也是 MARL 在多机器人导航(multi-robot navigation)领域的主要研究问题 。 Jia Pan 教授团队 [13] 在控制多机器人避碰导航问题上使用了集中式学习和分布式执行的机制 , 在学习过程中机器人之间共享奖励、策略网络和值函数网络 , 通过共享的经验样本来引导相互之间达成隐式的协作机制 。
推荐阅读
- 支付宝|支付宝五福活动抢先开始了!网友:原来今年可以提前集
- 外星人|外星生命原来是地球帮忙创造的:专家揭秘其中过程
- 科普|为什么吃完火锅总有一身味儿?原来跟它没关系
- AMD|果然这样!X光下看AMD Zen4:16核心只是开胃菜
- 股票|美国男子炒特斯拉股票狂赚上千万美元被捕:原来是空手套白狼
- 眼睛|揉眼睛、滴眼药水…这些你以为的好习惯原来这么伤眼
- 奔驰|奔驰的特斯拉 长这样
- 家电|拆开才知道 原来这些家电和手机震动是一个原理
- 生科医学|身高猛窜、突然变丑:原来它在作怪!
- 衣服|被裹8件衣服2层厚被子 五月大婴儿险出事!冬天这样穿后果很严重
