【博弈论】博弈论速成指南:那些融入深度学习的经典想法和新思路( 二 )



【博弈论】博弈论速成指南:那些融入深度学习的经典想法和新思路
本文插图
作者提出的五元素标准 。
对称 vs 非对称
最简单的一种博弈分类方式是根据对称性进行分类 。 在对称博弈环境里 , 每个玩家具备同样的目标 , 结果仅取决于策略 。 国际象棋就是一种经典的对称博弈 。 我们在现实世界中遇到的很多场景缺少对称的数学优雅性 , 因为参与者通常目标不同 , 甚至还存在冲突 。 商务谈判则属于非对称博弈 , 参与各方目标不同 , 并从不同的角度来评估结果(例如 , 赢得合同 vs 最小化投资) 。
完美信息 vs 不完美信息
另一种重要的博弈分类方式基于可获取信息类型 。 完美信息博弈指每个玩家都能够看到其他玩家的行动 , 例如国际象棋 。 在很多现代交互的环境中 , 每个玩家的行动是对别人隐藏的 , 博弈论将这些场景归类为不完美信息博弈 。 从扑克等纸牌游戏到自动驾驶汽车 , 不完美游戏博弈就在我们身边 。
合作 vs 非合作
在合作博弈环境中 , 不同的参与者可以通过结盟来最大化最终结果 。 合同谈判通常被认为是合作博弈 。 在非合作博弈环境中 , 参与者禁止结盟 。 战争是非合作博弈的终极案例 。
同时 vs 序列
在序列博弈环境中 , 每个玩家了解对手之前的动作 。 棋盘游戏本质上最具序列博弈属性 。 在同时博弈场景中 , 双方可以同时行动 , 例如证券交易 。
零和 vs 非零和
零和游戏指一方有得其他方必有失 , 例如棋盘游戏 。 非零和游戏中 , 多个玩家可以从其他玩家的动作中获益 。 经济交互中多个参与者合作扩大市场规模就是非零和博弈 。
纳什均衡
对称博弈统治 AI 世界 , 其中大多数基于 20 世纪最著名的数学理论之一:纳什均衡 。 纳什均衡以美国数学家 John Forbes Nash 命名 。 本质上 , 纳什均衡描述了这样的场景:每个玩家选择一个策略 , 当一个玩家不改变策略时 , 没有玩家能从改变策略中获益 。
【博弈论】博弈论速成指南:那些融入深度学习的经典想法和新思路
本文插图
已故美国数学家、经济学家 John Nash 。
纳什均衡是一个优美且强大的数学模型 , 它可以解决很多博弈论问题 , 但在一些对称博弈环境中捉襟见肘 。 对于初学者而言 , 纳什方法假设玩家具备无限的计算能力 , 而现实环境中几乎不存在这种情况 。
此外 , 很多纳什均衡模型无法解释风险概念(常见于大多数非对称博弈场景 , 如经济市场) 。 因此 , 很多非对称博弈场景很难利用纳什均衡实现 。 在多智能体 AI 系统中这一点尤为重要 , 这需要在解决方案的数学优雅性和实现的可行性中找到合适的平衡 。
【【博弈论】博弈论速成指南:那些融入深度学习的经典想法和新思路】 博弈论中正在影响机器学习的新想法
多智能体 AI 系统是 AI 生态系统中最让人着迷的领域之一 。 多智能体系统等领域的近期进展扩展了博弈论的边界 , 它依赖该领域中最复杂的思想 。 作者在下文又列举了出现在现代机器学习中的博弈论子领域的示例 。
平均场博弈
平均场博弈(Mean Field-Games , MFG)是博弈论中比较新的领域 。 MFG 理论诞生于 2006 年 , 是 Minyi Huang、Roland Malhamé、Peter Caines、Jean-Michel Lasry 和菲尔兹奖得主 Pierre-Louis Lions 发表的一系列独立论文中的一篇 。
从概念上看 , MFG 包含的方法和技术用于研究由「理性博弈方」组成的大群体下的微分博弈 。 这些智能体不光对自己的状态(如财富、资产)有偏好 , 对群体中其他智能体的分布也存在偏好 。 MFG 理论为这些系统研究泛化纳什均衡 。
经典的案例是如何让几个鱼群以比较协调的方式沿相同方向游动 。 理论上 , 这种现象很难解释 , 不过它基于这一事实:鱼对最邻近鱼群的行为有反应 。 具体而言 , 每条鱼并不关心其他鱼 , 但是它关心附近作为一个整体统一移动的鱼群 。 如果我们用数学术语表述的话 , 鱼对鱼群的反应是哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman equation , 简称 HJB 方程) 。 而整个鱼群的行动是所有鱼的动作集合 , 这对应了福克-普朗克方程(Fokker-Planck-Kolmogorov equation) 。 平均场博弈理论是这两个公式的结合体 。


推荐阅读