工程院|美国工程院院士深度解析:博弈论与控制面临哪些挑战和机遇?( 二 )



进一步的细分基于参与者可使用的行动方案性质 , 以及这些行动如何决定结果 。 如果每个参与者只有数量有限的行动方案 , 即参与者从有限集合(动作集)中选择他们的动作 , 这种博弈就是有限博弈 , 否则就是无限博弈 。
有限博弈也称为矩阵博弈 。 如果参与者的动作集是连续的 , 且其目标函数相对于所有参与者的动作变量是连续的 , 则无限博弈被称为连续核博弈 。
正如目标函数所捕获的 , 如果参与者的行为单独决定结果 , 那么这样的博弈被认为是确定性博弈;而如果至少一个参与者的目标函数依赖于一个具有潜在概率分布的附加变量(自然状态) , 那么我们就称之为随机博弈 。
如果博弈描述(即参与者、目标函数和潜在概率分布(如果是随机的)是所有参与者的共同信息 , 那么这就是完全信息博弈;否则我们就称其为不完全信息博弈 。
如果参与者只能获得先验信息(所有人共享) , 而不能获得任何其他参与者的行动信息 , 我们会称其为静态博弈;否则 , 我们就称其为动态博弈 。 如果每个参与者只行动一次 , 我们称其为单次博弈;否则将称其为多次博弈 。 请注意 , 单次博弈可能是动态的 , 多次博弈可能是静态的 。

如果决策过程的演化(由参与者随时间控制)发生在连续的时间内 , 通常涉及一个微分方程 , 这样的动态博弈就被称为微分博弈;如果它发生在离散的时间范围内 , 则动态博弈有时被称为离散时间博弈 。
NSR:策略的概念在博弈中起着重要作用 , 特别是在动态博弈中 , 是这样吗?
Basar:
确实如此 。 在动态博弈中 , 随着博弈的进行 , 参与者获得关于其他参与者过去行为的信息(完整或部分的) , 并在选择自己的行为时使用这些信息 。
例如 , 在有限动态博弈中 , 博弈过程可用树结构表示(也称为扩展式) , 其中每个节点代表一个参与者及其行动时间 , 节点的分支显示该特定参与者可能的行动 。
当参与者对其他参与者过去的行动没有完整的信息时 , 就形成了参与者的信息集 。 在扩展式博弈中 , 参与者决定的不是他们的行动 , 而是他们的策略 , 即他们在每个信息集采取的行动 。 然后 , 根据策略以及在博弈树上的位置 , 他们采取特定的行为 。

因此 , 此时的均衡是定义在策略上而非行动上的 。 如果非要与控制论相比 , 那么 , 策略就像控制律 , 或等价地 , 控制策略 , 它根据控制者所能获得的信息 , 通常包括被控系统的状态 , 来生成控制信号(或命令)作为系统的输入控制 。 被控系统的状态信息可以通过完美或含噪信道获得 。
NSR:请问控制和动态博弈之间是否存在关联?
Basar:
的确有 。 控制 , 特别是最优控制 , 可以看作是单个参与者的动态(或微分)博弈 。 进一步 , 由于纳什均衡的表征和计算涉及到每个参与者个体优化问题的解 , 因此给最优控制开发的工具 , 如动态规划或极大值原理 , 在动态博弈中肯定是有用的 。
然而 , 如果参与者有不同类型的信息 , 那么动态博弈的情况就会更加复杂 。 即使一些参与者具有开环信息 , 而其他参与者都具有完全信息 , 不论是动态规划还是极大值原理 , 都不能用来构造纳什均衡 。
对其他类型的信息结构 , 情况更加复杂 。 这在目前仍然是一个活跃的研究领域 , 而且动态博弈中信息结构的复杂性也是我多年来一直很感兴趣的问题 。
对于零和动态博弈或微分博弈来说 , 情况更容易处理一些 , 这导致了鲁棒控制的成功 , 其中系统可能有模型不确定性和/或未知输入 。

基于零和博弈论方法的鲁棒控制允许系统的未知信息被视为对手博弈者所控制的输入 , 而其目标与控制器完全相反 。
这种控制器和虚拟对手之间的直接利益冲突导致了零和动态博弈的形成 , 其在给定的控制器信息结构下的极大极小解或鞍点解也由对手(进行收益最大化的博弈参与者)共享 , 从而为系统提供了鲁棒控制律 。


推荐阅读