AlphaGo原来是这样运行的,一文详解多智能体强化学习( 四 )
JAL 和 FMQ 方法的基本思路都是基于均衡求解法 , 但这类方法通常只能处理小规模(即智能体的数量较少)的多智能体问题:在现实问题中 , 会涉及到大量智能体之间的交互和相互影响 , 而一般的均衡求解法受限于计算效率和计算复杂度、很难处理复杂的情况 。 在大规模多智能体学习问题中 , 考虑群体联合动作的效应 , 包括当前智能体受到的影响以及在群体中发挥的作用 , 对于智能体的策略学习是有较大帮助的 。
本文插图
基于平均场理论的多智能体强化学习(Mean Field MARL, MFMARL)方法是 UCL 学者在 2018 年 ICML 会议上提出的一种针对大规模群体问题的方法 , 它将传统强化学习方法(Q-learning)和平均场理论(mean field theory)相结合 。 平均场理论适用于对复杂的大规模系统建模 , 它使用了一种简化的建模思想:对于其中的某个个体 , 所有其他个体产生的联合作用可以用一个 “平均量” 来定义和衡量 。 此时 , 对于其中一个个体来说 , 所有其他个体的影响相当于一个单体对于它的影响 , 这样的建模方式能够有效处理维度空间和计算量庞大的问题 。
MFMARL 方法基于平均场理论的建模思想 , 将所有智能体看作一个“平均场” , 个体与其他智能体之间的关系可以描述为个体和平均场之间的相互影响 , 从而简化了后续的分析过程 。
本文插图
图 5:基于平均场理论的多智能体建模方式 , 单个智能体只考虑与相邻的其他智能体(蓝色球体区域)的相互作用 。 图源:[8]
首先 , 为了处理集中式全局值函数的学习效果会受到智能体数量(联合动作的维度)的影响 , 对值函数进行分解 。 对于单个智能体 j , 它的值函数 Qj(s,a)包含了与所有 Nj 个相邻智能体 k 之间的相互作用:
本文插图
然后 , 将平均场理论的思想结合到上式中 。 考虑离散的动作空间 , 单个智能体的动作采用 one-hot 编码的方式 , 即 aj=[h(aj_1), ... h(aj_d)] , 其中 h(aj_i)=1 if aj=aj_i ?: 0;其他相邻智能体的动作可以表示为平均动作bar和一个波动δ的形式:
本文插图
利用泰勒二阶展开 , 得到
本文插图
该式子即是将当前智能体 j 与其他相邻智能体 k 的相互作用 , 简化为当前智能体 j 和虚拟智能体bar的相互作用 , 是平均场思想在数学形式上的体现 。 此时 , 在学习过程中 , 迭代更新的对象为平均场下的 Q(s,aj,bar)值(即 MF-Q) , 有:
本文插图
在更新中使用 v 而不是使用 max Q 的原因在于:对 Q 取 max , 需要相邻智能体策略bar的合作 , 而对于智能体 j 来说是无法直接干涉其他智能体的决策情况;另一方面 , 贪心的选择依旧会导致学习过程受到环境不稳定性的影响 。
对应地 , 智能体 j 的策略也会基于 Q 值迭代更新 , 使用玻尔兹曼分布有:
本文插图
原文证明了通过这样的迭代更新方式 , bar最终能够收敛到唯一平衡点的证明 , 并推出智能体 j 的策略πj 能够收敛到纳什均衡策略 。
显式的协作机制
关于显式的协作机制 , 我们将通过多智能体深度强化学习在多机器人领域的应用中会简单介绍(主要是人机之间的交互 , 考虑现存的一些约束条件 / 先验规则等) 。
推荐阅读
- 支付宝|支付宝五福活动抢先开始了!网友:原来今年可以提前集
- 外星人|外星生命原来是地球帮忙创造的:专家揭秘其中过程
- 科普|为什么吃完火锅总有一身味儿?原来跟它没关系
- AMD|果然这样!X光下看AMD Zen4:16核心只是开胃菜
- 股票|美国男子炒特斯拉股票狂赚上千万美元被捕:原来是空手套白狼
- 眼睛|揉眼睛、滴眼药水…这些你以为的好习惯原来这么伤眼
- 奔驰|奔驰的特斯拉 长这样
- 家电|拆开才知道 原来这些家电和手机震动是一个原理
- 生科医学|身高猛窜、突然变丑:原来它在作怪!
- 衣服|被裹8件衣服2层厚被子 五月大婴儿险出事!冬天这样穿后果很严重
