AlphaGo原来是这样运行的,一文详解多智能体强化学习( 九 )


AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图
图 13:多机器人向各自目标点移动过程中的相互避碰 。 仓库物件分发是该问题的常见场景 , 多个物流机器人在向各自指定的目标点移动过程当中 , 需要避免和仓库中的其他物流机器人发生碰撞 。 图源:[15]
另外 , 不仅有机器人和机器人之间的避碰问题 , 有一些工作还考虑到了机器人和人之间的避碰问题 , 如 SA-CADRL(socially aware collision avoidance deep reinforcement learning)。 根据该导航任务的具体设定(即机器人处在人流密集的场景中) , 在策略训练是引入一些人类社会的规则(socially rule) , 相当于要让机器人的策略学习到前面 1.2.3 部分提到显式的协调机制 , 达成机器人与人的行为之间的协作 。

AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图
图 14:左图展示了相互避碰时的两种对称规则 , 上面为左手规则 , 下面为右手规则 。 右图是在 SA-CADRL 方法中模型引入这样的对称性信息 , 第一层中的红色段表示当前智能体的观测值 , 蓝色块表示它考虑的附近三个智能体的观测值 , 权重矩阵的对称性是考虑了智能体之间遵循一定规则的对称行为 。 图源:[16]
4. 总结
多智能体强化学习(MARL)是结合了强化学习和多智能体学习这两个领域的重要研究方向 , 关注的是多个智能体的序贯决策问题 。 本篇文章主要基于智能体之间的关系类型 , 包括完全合作式、完全竞争式和混合关系式 , 对多智能体强化学习的理论和算法展开介绍 , 并在应用方面列举了一些相关的研究工作 。 在未来 , 对 MARL 方面的研究(包括理论层面和应用层面)仍然需要解决较多的问题 , 包括理论体系的补充和完善、方法的可复现性、模型参数的训练和计算量、模型的安全性和鲁棒性等 [15] 。
参考文献:
[1] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2018.
[2] Zhang K , Yang Z , Baar T . Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms[J]. 2019.
[3] L. Busoniu, R. Babuska, and B. De Schutter, “A comprehensive survey of multi-agent reinforcement learning,” IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol. 38, no. 2, pp. 156–172, Mar. 2008.
[4] Littman M L. Markov games as a framework for multi-agent reinforcement learning[C]. international conference on machine learning, 1994: 157-163.
[5] Hu J, Wellman M P. Nash Q-learning for general-sum stochastic games[J]. Journal of machine learning research, 2003, 4(Nov): 1039-1069.
[6] Caroline Claus and Craig Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems. In Proceedings of the Fifteenth National Conference on Artificial Intelligence, pp. 746–752, 1998.
[7] S. Kapetanakis and D. Kudenko. Reinforcement learning of coordination in cooperative multi-agent systems. American Association for Artificial Intelligence, pp. 326-331, 2002.
[8] Yang Y, Luo R, Li M, et al. Mean Field Multi-Agent Reinforcement Learning[C]. international conference on machine learning, 2018: 5567-5576
[9] Lowe R, Wu Y, Tamar A, et al. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[C]. neural information processing systems, 2017: 6379-6390.


推荐阅读