AlphaGo原来是这样运行的，一文详解多智能体强化学习( 四 )

JAL 和 FMQ 方法的基本思路都是基于均衡求解法，但这类方法通常只能处理小规模（即智能体的数量较少）的多智能体问题：在现实问题中，会涉及到大量智能体之间的交互和相互影响，而一般的均衡求解法受限于计算效率和计算复杂度、很难处理复杂的情况。在大规模多智能体学习问题中，考虑群体联合动作的效应，包括当前智能体受到的影响以及在群体中发挥的作用，对于智能体的策略学习是有较大帮助的。

本文插图
基于平均场理论的多智能体强化学习（Mean Field MARL, MFMARL）方法是 UCL 学者在 2018 年 ICML 会议上提出的一种针对大规模群体问题的方法，它将传统强化学习方法（Q-learning）和平均场理论（mean field theory）相结合。平均场理论适用于对复杂的大规模系统建模，它使用了一种简化的建模思想：对于其中的某个个体，所有其他个体产生的联合作用可以用一个 “平均量” 来定义和衡量。此时，对于其中一个个体来说，所有其他个体的影响相当于一个单体对于它的影响，这样的建模方式能够有效处理维度空间和计算量庞大的问题。
MFMARL 方法基于平均场理论的建模思想，将所有智能体看作一个“平均场” ，个体与其他智能体之间的关系可以描述为个体和平均场之间的相互影响，从而简化了后续的分析过程。

本文插图
图 5：基于平均场理论的多智能体建模方式，单个智能体只考虑与相邻的其他智能体（蓝色球体区域）的相互作用。图源：[8]
首先，为了处理集中式全局值函数的学习效果会受到智能体数量（联合动作的维度）的影响，对值函数进行分解。对于单个智能体 j ，它的值函数 Qj(s,a)包含了与所有 Nj 个相邻智能体 k 之间的相互作用：

本文插图
然后，将平均场理论的思想结合到上式中。考虑离散的动作空间，单个智能体的动作采用 one-hot 编码的方式，即 aj=[h(aj_1), ... h(aj_d)] ，其中 h(aj_i)=1 if aj=aj_i ?: 0；其他相邻智能体的动作可以表示为平均动作bar和一个波动δ的形式：

本文插图
利用泰勒二阶展开，得到

本文插图
该式子即是将当前智能体 j 与其他相邻智能体 k 的相互作用，简化为当前智能体 j 和虚拟智能体bar的相互作用，是平均场思想在数学形式上的体现。此时，在学习过程中，迭代更新的对象为平均场下的 Q(s,aj,bar)值（即 MF-Q），有：

本文插图
在更新中使用 v 而不是使用 max Q 的原因在于：对 Q 取 max ，需要相邻智能体策略bar的合作，而对于智能体 j 来说是无法直接干涉其他智能体的决策情况；另一方面，贪心的选择依旧会导致学习过程受到环境不稳定性的影响。
对应地，智能体 j 的策略也会基于 Q 值迭代更新，使用玻尔兹曼分布有：

本文插图
原文证明了通过这样的迭代更新方式， bar最终能够收敛到唯一平衡点的证明，并推出智能体 j 的策略πj 能够收敛到纳什均衡策略。
显式的协作机制
关于显式的协作机制，我们将通过多智能体深度强化学习在多机器人领域的应用中会简单介绍（主要是人机之间的交互，考虑现存的一些约束条件 / 先验规则等）。

AlphaGo原来是这样运行的，一文详解多智能体强化学习( 四 )

推荐阅读

婚姻|“三无女”成婚恋市场黑名单，颜值高也没用，大学生恋爱需谨慎

小娘子| 迷人知性，街拍美女：白色V领衬衫搭配灰色鱼尾裙

世卫组织：全球新冠肺炎确诊病例超过3273万例

今年10款重磅轿车抢先看，凌渡溜背+无框车门，思域变“小雅阁”

各位装了地暖的知友们，请谈谈你们装地暖的面积和每个月的费用，每年开几个月呢

实用养生馆咳嗽老不好，路边的小野花随手摘回家泡水喝，腰不疼，腿不软!

啥商品在俄国卖得很贵，而在国内却很便宜，超值的

央视|共转移36183人，辽宁强降雨导致全省15座水库超汛限

一根手指头顶端肿胀

月球飞机残骸美国宇航员破坏中国月球基地

【买到】农村山上一种野草，花像猫的尾巴，根茎价值珍贵，城里有钱难买到

为啥有些朋友开始觉得很好，后期会很讨厌

|互动话题丨山东鲁能三轮不胜，您觉得球队需要做哪些调整？

温州突发冰雹，砸伤部分招聘会场学生

女人多老也别放弃打扮，新年学西班牙王后这样穿红色，美得好高级

综艺|罗云熙颜值遭质疑，《皓衣行》工作人员开小号吐槽，给他修脸修到吐！

马景涛“咆哮教主”的称号是怎么来的马景涛叫咆哮帝的原因分析

拼配红茶品牌,哪个品牌红茶历史

极客特派员各价位性价比手机推荐，千元篇，618购机指南

快递|申通竟然建议客户发顺丰！涉事站点被罚