AlphaGo原来是这样运行的，一文详解多智能体强化学习( 九 )

本文插图
图 13：多机器人向各自目标点移动过程中的相互避碰。仓库物件分发是该问题的常见场景，多个物流机器人在向各自指定的目标点移动过程当中，需要避免和仓库中的其他物流机器人发生碰撞。图源：[15]
另外，不仅有机器人和机器人之间的避碰问题，有一些工作还考虑到了机器人和人之间的避碰问题，如 SA-CADRL（socially aware collision avoidance deep reinforcement learning）。根据该导航任务的具体设定（即机器人处在人流密集的场景中），在策略训练是引入一些人类社会的规则（socially rule），相当于要让机器人的策略学习到前面 1.2.3 部分提到显式的协调机制，达成机器人与人的行为之间的协作。

本文插图
图 14：左图展示了相互避碰时的两种对称规则，上面为左手规则，下面为右手规则。右图是在 SA-CADRL 方法中模型引入这样的对称性信息，第一层中的红色段表示当前智能体的观测值，蓝色块表示它考虑的附近三个智能体的观测值，权重矩阵的对称性是考虑了智能体之间遵循一定规则的对称行为。图源：[16]
4. 总结
多智能体强化学习（MARL）是结合了强化学习和多智能体学习这两个领域的重要研究方向，关注的是多个智能体的序贯决策问题。本篇文章主要基于智能体之间的关系类型，包括完全合作式、完全竞争式和混合关系式，对多智能体强化学习的理论和算法展开介绍，并在应用方面列举了一些相关的研究工作。在未来，对 MARL 方面的研究（包括理论层面和应用层面）仍然需要解决较多的问题，包括理论体系的补充和完善、方法的可复现性、模型参数的训练和计算量、模型的安全性和鲁棒性等 [15] 。
参考文献：
[1] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2018.
[2] Zhang K , Yang Z , Baar T . Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms[J]. 2019.
[3] L. Busoniu, R. Babuska, and B. De Schutter, “A comprehensive survey of multi-agent reinforcement learning,” IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol. 38, no. 2, pp. 156–172, Mar. 2008.
[4] Littman M L. Markov games as a framework for multi-agent reinforcement learning[C]. international conference on machine learning, 1994: 157-163.
[5] Hu J, Wellman M P. Nash Q-learning for general-sum stochastic games[J]. Journal of machine learning research, 2003, 4(Nov): 1039-1069.
[6] Caroline Claus and Craig Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems. In Proceedings of the Fifteenth National Conference on Artificial Intelligence, pp. 746–752, 1998.
[7] S. Kapetanakis and D. Kudenko. Reinforcement learning of coordination in cooperative multi-agent systems. American Association for Artificial Intelligence, pp. 326-331, 2002.
[8] Yang Y, Luo R, Li M, et al. Mean Field Multi-Agent Reinforcement Learning[C]. international conference on machine learning, 2018: 5567-5576
[9] Lowe R, Wu Y, Tamar A, et al. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[C]. neural information processing systems, 2017: 6379-6390.

AlphaGo原来是这样运行的，一文详解多智能体强化学习( 九 )

推荐阅读

巴威|受台风“巴威”影响辽宁多地陆岛运输船及海上客运停航

[吾念长安]波浪卷发大蝴蝶结，完美上演甜美女神范，郑爽又出新造型

「平安巴南」巴南民警：破案不费吹灰之力，偷车贼：实名制卖车

川航一外籍机长航前酒测超标被罚款8万并停飞半年

学生保养皮肤的方法学生吃什么食物有助于保养皮肤？

萌宠■黄金周将至，萌宠抢占“豪华房”！考验钱包的时候到了

ZAKER生活|炫神粉丝与FPX发生争论，炫神：加大力度我得继续看，LOL

妆酷的仙女会负责到底，李佳琦方回应买完不让换：已进行退款

上海热线军事|26枚导弹砸向叙利亚叛军：美军事先毫无察觉，俄罗斯海军猛烈开火

秦绪文自媒体|好用到爆，谁用谁知道，自媒体团队和大V都在用的选题起标题方法

疼到想笑，为啥

中国民航局：两岸确认春节加班等航空运输安排

如何品出茶的香气

足光散泡脚脱皮能撕吗

蔡依林|40岁蔡依林罕见晒视频，上万手机镶珠宝项链抢眼，出道20年似少女

下载|下载的文件打不开甚至中毒？教你几招Hash文件

名医手记丨老年人头晕警惕心血管疾病

女副区长被家暴致死|女副区长被家暴致死男友获无期被告上诉被驳回

猪肉价格春节期间会降价吗,猪肉价格春节前能降下来吗-

三毛时尚|街拍：小姐姐一身蓝色的吊带长裙，女人味道十足，气质高贵