工程院|美国工程院院士深度解析:博弈论与控制面临哪些挑战和机遇?( 四 )
这些人和其他人奠定了决策论和博弈论的基础 , 从而为控制研究增添了动力 。
在这种独特的、非常有益的环境中 , 贝尔曼早在1949年就开始了多阶段决策过程的研究 , 但更充分的(研究)是在1952年之后—— 一个也许鲜为人知的历史事实是 , 贝尔曼在兰德工作时的早期主题之一就是博弈论(零和与非零和博弈) , 他与布莱克韦尔、拉萨尔共同撰写了研究报告 。
32年后贝尔曼写了一本内容翔实且有趣的自传(《飓风眼》 , Eye of the Hurricane , 世界科学出版社 , 新加坡) , 在1984年3月19日他英年早逝前不久完成的这本书中 , 贝尔曼洋洋洒洒地描述了兰德公司的研究环境和他创造“动态规划”这个术语的原因 。
动态规划在不同类型问题中的应用 , 以及“动态规划函数方程”的获得 , 促使贝尔曼随后提出“最优性原理”作为一个统一的原则 。 这一原则由几乎同时同样供职于兰德公司的伊萨克斯在微分博弈的更广阔背景下 , 将其称为“变迁原则” , 这一称呼抓住了对抗环境下策略性动态决策特性 。
事实上 , 伊萨克斯被认为是在零和框架下竞争性连续时间动态决策中创造了“微分博弈”一词的人 , 也有人把最优性原理归功于他 , 因为它可以看作是变迁原则的一个特例 。 由于工作的机密性 , 多年来伊萨克斯一直未能在公开文献中公布他的发现(贝尔曼则可以) , 直到1965年其书籍《微分博弈》(Differential Games)的出版 。
该书引起了研究兴趣的跃迁 , 首先是追逃博弈(更广泛地 , 零和微分博弈) , 后来是上世纪70年代初的非零和微分博弈 , 由哈佛大学的何毓琦及其合作者领头 。
博弈论研究的挑战
NSR:您能谈谈目前博弈论 , 特别是在动态博弈方面的主要研究领域 , 以及主要的挑战是什么吗?
Basar:
我谈几个方面 , 但绝非完整和详尽 。 像我之前简单说过的 , 信息结构在动态博弈的非合作均衡表征和计算中所起的作用是目前一个活跃的研究领域 , 因为其中仍有许多复杂的因素尚未完全得到理解 。
这些都与均衡对决策过程中博弈者所获得信息类型的相关性有关系:谁与谁交流、一个博弈者的行动怎么从质量和数量上影响其他博弈者接收到的与其决策相关的信息 。
显然 , 这些问题在单一决策者情况下都不会出现 。 还有不同参与者的理性问题——有意或无意的理性缺失 , 即使他们在某种程度上是理性的 , 其理性的“边界”是什么(可能是由于对资源如计算能力或感知能力的约束所导致的限制造成) , 以及这一切如何影响均衡 。 还有一个问题是均衡对未被建模的不确定性以及对抗性干预(如加在通信链路上的)的鲁棒性 。
之前我提到过鲁棒(H-∞)最优控制成功地与零和微分博弈相联系 , 这对其他学科也有影响 , 并为与非零和动态博弈建立类似的联系提供了相当丰富的路径 。
另一个内容丰富的研究领域是网络博弈 。
广义上 , 这里的背景是存在一个底层的网络或图形结构 , 可能是多层的 , 约束着参与者之间的交互:由邻居关系决定谁与谁交流 , 谁与谁合作 , 以及哪些参与者的目标或动态是相互耦合的 。
另一个高产的研究领域是平均场博弈 , 涉及到另一种结构特异性 , 其中参与者的互动不是与其他个体参与者进行 , 而是与无限数量的参与者对应的整体进行 , 单个成员的行为对群体的整体行为只有极小的影响 。 这是我本人目前感兴趣的一个方向 。
最后 , 当前一个日益增长的研究领域涉及到将机器学习 , 特别是强化学习工具引入博弈论 , 以解决“无模型”的多智能体决策问题 , 其中参与者并没有其他参与者的变化规律或目标函数信息——而其他参与者的行为会影响他们的表现 , 但会将自己通过观察所得的数据 , 比如在决策过程中获得的“奖励” , 整合到自己的行为生成算法中 。
推荐阅读
- 任正非|任正非:求生欲使我们振奋 永远不会忌恨美国
- 奇点使者|机器人“进化”出听觉!准确率高达80%,美国团队是背后操控者
- 华为余承东:正在想办法应对美芯片封杀|华为余承东:正在想办法应对美芯片封杀
- 互联网乱侃秀|美国想继续掌控半导体霸权?军方机构拿到ARM全部架构、IP
- |美国宣布投资10亿美元成立12家AI和量子研究所
- 中年|圆满的结局!苹果微信之间不用再二选一,美国政府还是做出让步
- 经济观察网|联发科技已向美国申请 力争9月15日后继续供货华为
- 我国|美国刚放出话,近百家日企立即响应号召,耗资千亿也要从我国撤离
- 科学|消失100多年!金刚狼重返美国北方,为何灭绝生物重现地球?
- 华为|联发科技已向美国申请 力争9月15日后继续供货华为
