|DeepMind最新力作：分布式强化学习框架Acme，智能体并行性加强( 二 )

研究者在 control suite、Atari 和 bsuite 等环境中对这些智能体进行了基准测试，下面动图 Demo 为利用 Acme 框架的智能体训练示例：

本文插图

如下图所示， DeepMind 展示了单个智能体（D4PG）的性能比较，其中所采用的度量指标是连续控制任务的 actor step 和时钟时间。可以看到，当对智能体收到的奖励与其环境交互次数进行比较时，性能大致相同。但是，随着智能体进一步并行化，智能体的学习速度加快。在相对较小的域内，观察结果被限制在小的特征空间中，这时即使并行化程度适度增加，则智能体学习最优策略的时间会降至不到一半。

本文插图

但对于更复杂的域，图像生成成本相对较高，我们可以看到更广泛的增益：

本文插图

对于雅达利游戏等数据收集成本更高且学习过程通常更长的域说，增益会更大。但需要注意的是，这些结果在分布式和非分布式设置下共享相同的动作和学习代码，因此对这些智能体和结果进行小规模实验完全可行。
原文链接：https://deepmind.com/research/publications/Acme

|DeepMind最新力作：分布式强化学习框架Acme，智能体并行性加强( 二 )

推荐阅读

吃麻辣酱上火吗？麻辣酱的营养价值有哪些?

青年|《全职高手》：退役的才是王者？你记得这些退役大神吗？

霸王龙|求求你们不要再迫害霸王龙了！

ASUS华硕东南新一代载人飞船上也能享用千兆局域网

高铁|浙江“唯一”未开通高铁城市，经济倒数第一，不是丽水也不是海宁

诺贝尔文学奖|2020诺贝尔文学奖预测：今年会是“米兰·昆德拉年”吗？

2018年中国外贸进出口总值创历史新高首超30万亿元

送母亲的花送母亲的花怎么搭配

怎样不秃顶|可盐可甜的奼女搭配仍是梁洁会玩！清新的浅色系设计，满满俏皮感

「广州恒大」恒大引他就赚大了：22岁豪门小将完全符合卡帅2点要求

北青网综合|涉及新冠密切接触者！安徽淮南紧急排查公交乘客

九游网|原神大碗茶在哪买大碗茶购买位置介绍

纯牛奶和鲜牛奶的区别-,纯牛奶和鲜牛奶有什么区别--

牛肚牛肚怎么卤好吃

发小|泡发木耳时，用冷水还是热水？教你泡发小技巧，木耳泡得又快又好

每日get|秋冬换季，如何挑选香水？3个技巧别忽略！

北京00后暑假账单仅百元！后悔没早点用美团App

什么是糙米茶,白茶是什么茶白茶属于什么茶种

兵器世界|美国吹牛皮被捅破，还让俄罗斯收获礼物，隐身导弹在叙利亚变哑弹

人物设定|拍完一生一世拍驭鲛记，上线六集就领盒饭，人设讨喜观众舍不得